Datenschutz-Debakel Informatiker knacken anonymisierte Datenbank per Web-Suche

Der US-Filmverleiher Netflix veröffentlicht zu Forschungszwecken die Leihgeschichte seiner Kunden - natürlich ohne Namen. Doch Informatiker spüren per Suchsoftware die Klarnamen auf. Sicherheitsexperten warnen: Die Methode funktioniert auch bei Kreditkarten-Betrug.

Von


Der Online-DVD-Verleiher Netflix will seinen Kunden und sich etwas Gutes tun: Eine neue Software soll Kunden treffsicherer als bisher Filme auf Basis der Leihgeschichte empfehlen. Eine Million Dollar verspricht die US-Firma Netflix dem Programmierer, der als erster eine um zehn Prozent präzisere Prophezeihungs-Software schreibt.

Netflix-Boss: Reed Hastings verleiht DVDs per Post und übers Web
AP

Netflix-Boss: Reed Hastings verleiht DVDs per Post und übers Web

Seit einem Jahr läuft der Wettbewerb, 18.000 Programmierer-Teams arbeiten sich an 100 Millionen anonymisierten Filmbewertungen von 500.000 Netflix-Kunden ab. Im Juni verkündete Netflix stolz, dass die Treffergenauigkeit dank des Wettbewerbs schon um 7,42 Prozent gestiegen ist.

Für diesen Fortschritt hat Netflix offenbar beim Datenschutz geschlampt: Zwei Informatikern der University of Texas in Austin ist es gelungen, die von Netflix anonymisierten Daten zum Teil den Klarnamen von Netflix-Kunden zuzuordnen, wie sie in einem Fachaufsatz beschreiben.

Für die Enttarnung haben die Forscher Arvind Narayanan und Vitaly Shmatikov keine Datenbank gehackt, keine Phishing-Mails verschickt oder derlei. Die beiden Informatiker haben lediglich ein Programm die Netflix-Datensätze mit den Filmkritiken auf dem Kinoportal "Internet Movie Database" (IMDb) abgleichen lassen. Auf IMDb.com rezensieren viele Mitglieder unter echtem Namen – und den kann die Software selbst bei ganz wenigen Rezensionen und DVD-Ausleihen mit geringer Fehlerquote Netflix-Accounts zuordnen.

Namen löschen ist keine Anonymisierung

Diese Enttarnung demonstriert, wie viel Schnüffelpotenzial scheinbar harmlose Datenbanken haben, sobald man sie vernetzt. Bruce Schneier, Experte für Kryptographie und Computersicherheit schreibt im US-Magazin "Wired", dass dieser Versuch zeigt, "wie wenig Informationen man braucht, um Datensätze zu entanonymisieren." Schneier: "Wenn man die Top-100-Filme außer acht lässt, die jeder sieht, sind die Sehgewohnheiten jedes Menschen nahezu einmalig." Filmbesprechungen taugen als digitale DNA. Und das dürfte auch für das Einkaufs-, Telefonier- und Websuch-Verhalten zutreffen.

Andreas Pfitzmann, Informatikprofessor an der Technischen Universität Dresden und Experte für Datenschutz und Datensicherheit erklärt gegenüber SPIEGEL ONLINE: "Anonymisierung funktioniert nicht so, dass man einfach Namen und Adressen weglässt. Das mögen Politiker suggerieren oder sogar glauben – es stimmt aber nicht."

Online-Rezensionen helfen Schnüffel-Software

Pfitzmann überraschen die Ergebnisse der Informatiker aus Texas nicht: "Die Möglichkeiten und Risiken dieses Ansatzes erforschen Informatiker seit 20 Jahren." Der Unterschied ist, dass heute mehr Informationen digitalisiert in vernetzten Datenbanken liegen als je zuvor. Ideale Voraussetzungen für Schnüffelattacken.

Pfitzmann erklärt: "Indem man Datensätze aus verschiedenen Datenbanken miteinander in Beziehung setzt, kann man ab einer kritischen Menge an Attributen Verhaltensmuster erkennen und Informationen aus einer anonymisierten Datenbank den konkreten Personen in einer anderen zuordnen."

Bei Netflix erscheint die Entanonymisierung auf den ersten Blick nicht besonders gravierend. Was ist schon dabei, wenn alle Welt weiß, welche Filme man ausleiht? Es gibt bei Netflix ja nicht einmal Pornos, für die sich nun enttarnte Kunden schämen könnten. Die Netflix-Methode dürfte aber auch bei heikleren Fällen Daten personalisieren.

Das Web liefert den Namen zur Kredikartennummer

Ein Beispiel: Computer-Gaunern gelingt es, bei einem DVD-Online-Shop Kreditkartennummern und dazugehörende Einkaufsdaten abzugreifen. Ihnen fehlen aber Namen und Adressen der Kartenbesitzer. Die können sie theoretisch genauso herausfinden wie die Forscher im Netflix-Fall.

Informatiker Andreas Pfitzmann: "Im Prinzip könnte das so funktionieren. Vermutlich würde man aber zur Senkung der Fehlerrate noch weitere Attribute brauchen, zum Beispiel Datum und Uhrzeit des Online-Kaufs und der Bewertung bei IMDb."

Kryptographie-Experte Bruce Schneier zählt in seiner Analyse der Netflix-Untersuchung weitere denkbare Anwendungen solcher Datenbank-Abgleiche auf:

  • Amazon-Buchkritiken können helfen, Kreditkarten-Tranksaktionen mit Namen zu versehen.
  • Online-Händler mit detaillierten Kunden- und Transaktionsdatenbanken könnten anonymisiert veröffentlichte Datenbanken mit Internet-Suchanfragen Kunden zuordnen.
  • Datenhändler mit Zugriff auf die Datenbanken mehrerer Online-Händler könnten die meisten Informationen in den einzelnen Datenbanken personalisieren.

Wie viele Informationen für eine verlässliche Identifizierung nötig sind, kann man nicht per se sagen. Informatiker Pfitzmann: "Sehr viele harmlose Attribute könnten genügen." Die Konsequenz daraus ist: Je mehr scheinbar unbedenkliche Informationen über ihre Vorlieben Menschen ins Web stellen, desto leichter wird die Arbeit für Abgleich-Programme.

Die Folge laut Datensicherheits-Experten Pfitzmann: "Wenn irgendwo eine Datenbank gehackt wird, ist es nicht unbedingt beruhigend, dass die Daten dort nur anonymisiert gespeichert waren."



© SPIEGEL ONLINE 2007
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.