Anonymisierungs-Studie Kreditkartendaten verraten Nutzer

Essen beim Italiener, Schuhe vom Designer - schon mit solchen anonymen Informationen können Kreditkartennutzer identifiziert werden.
Kreditkarten: Zwei bis vier Datenpunkte reichen, um Nutzer zu identifizieren

Kreditkarten: Zwei bis vier Datenpunkte reichen, um Nutzer zu identifizieren

Foto: Marius Becker/ picture alliance / dpa

Gründliche Anonymisierung gilt im Datenschutz derzeit als der Kompromiss zwischen Big-Data-Firmen und Verbrauchern: Wenn man personenbezogene Daten erst einmal von allen Personenbezügen befreit hat, so die Logik datenhungriger Unternehmen, kann man damit praktisch anstellen, was man will. Es ist ja niemand mehr zu identifizieren, also werden auch niemandes Rechte verletzt. Hat man Informationen wie Namen, Adressen, Telefon- oder Kreditkartennummern erst einmal aus einem Datensatz entfernt, ist der für Forschung und andere Zwecke gefahrlos einsetzbar? Keineswegs.

Das zeigt einmal mehr eine soeben im Wissenschaftsmagazin "Science " erschienene Studie. Wer nur ein klein wenig Zusatzwissen hat, kann auch mit Hilfe eines Datensatzes, der auf den ersten Blick keine konkreten Personendaten enthält, jede einzelne Person eindeutig identifizieren. Metadaten sind weit mächtiger, als das auf den ersten Blick scheint.

Für ihre Studie benutzten Yves-Alexandre de Montjoye von MIT Media Lab und seine Kollegen einen gewaltigen Satz Kreditkartendaten von 1,1 Millionen Nutzern in 10.000 Geschäften, gesammelt über einen Zeitraum von drei Monaten. Alle offenkundig zur Identifikation einzelner Nutzer geeigneten Daten waren entfernt worden: Namen, Konto- und Kartennummern etwa. Stattdessen bekam jeder Nutzer eine kryptische Identifikationsnummer - genaugenommen waren die Daten also nicht anonymisiert, sondern pseudonymisiert: Die Nummer steht als Pseudonym für den Kartenbesitzer und macht damit alle seine Transaktionen verknüpfbar.

Name, Nummer, Uhrzeit, Produkte - alles entfernt

Jede erfasste Transaktion bekam einen Zeitstempel mit einer Genauigkeit von einem Tag und wurde einem bestimmten Ladengeschäft zugeordnet. Außerdem enthielt der Datensatz die Höhe der jeweils gezahlten Summe. Die Forscher wussten also nicht, wer eingekauft oder etwas gegessen hatte, was erworben oder konsumiert worden war und auch nicht, zu welcher Uhrzeit.

Nun gingen die Forscher daran, einzelne Personen aus der Stichprobe identifizierbar zu machen, und zwar mit Hilfe einiger weniger zusätzlicher Informationen über die jeweilige Person. Etwa, in welchen Gegenden sie ihre Kreditkarte in letzter Zeit benutzt hat.

Die Forscher selbst beschreiben ihre Vorgehensweise so: "Nehmen wir an, wir wissen über Scott zwei Dinge: Er war am 23. September beim Bäcker und am 24. in einem Restaurant. Wenn wir jetzt den Datensatz durchsuchen, stellen wir fest, dass es nur eine einzige Person darin gibt, die an diesen zwei Tagen diese beiden Orte besucht hat." Nun ist also klar, welche Personennummer zu Scott gehört - und all seine übrigen Kreditkartentransaktionen können ihm ebenfalls zugeordnet werden: "Wir wissen jetzt also auch, dass er am 23. September auch noch Schuhe und Lebensmittel gekauft und was er dabei ausgegeben hat."

Auch weit ungenauere Daten erlauben noch Identifikation

Vier Informationspaare - welche Zeit, welcher Ort? - reichten de Montjoye und seinen Kollegen, um 90 Prozent aller Personen in der Stichprobe zweifelsfrei identifizierbar zu machen. Noch einfacher wurde es, wenn neben dem Ort und dem Tag auch noch der ungefähre Preis einer Transaktion genutzt werden durfte.

Selbst dann, wenn sie ihren eigenen Datensatz noch wesentlich ungenauer machten, gelang es den Forschern mit etwas mehr Vorwissen, einzelne Personen aus dem Datenwust zu fischen. Sogar, wenn das Datum einer Transaktion nicht mehr auf einen, sondern nur noch auf 15 Tage genau angegeben wurde, wenn jeweils 350 Läden zu einem Ort zusammengefasst und die gezahlten Summen nur noch in breiten Intervallen angegeben wurden, funktionierte die Methode: Mit zehn bekannten Datenpunkten - also etwa Laden-Tag-Paaren - ließen sich 80 Prozent aller Personen im Datensatz eindeutig identifizieren.

Um an solche Datenpunkte zu kommen, müsste man eine Person übrigens nicht etwa beschatten - es würde beispielsweise reichen, Zugriff auf ihre Mobilfunkdaten zu haben. Denn die lassen weitreichende Schlüsse über den Aufenthaltsort zu.

Die Studie dürfte auch in Berlin und Brüssel für Interesse sorgen. Derzeit wird über die neue EU-Datenschutzverordnung verhandelt, Regierungen und Parlament müssen sich bis Jahresende auf eine Endfassung einigen. Einer der Punkte, über die derzeit noch diskutiert wird, ist Pseudonymisierung: Gerade die Bundesregierung wünscht sich  für die Verordnung vergleichsweise weitgehende Unternehmensrechte für die Verarbeitung pseudonymisierter Daten - mit der Begründung, die Betroffenen seien dann ja nicht mehr eindeutig zu identifizieren.