Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.

Hacker-Treffen 28C3 in Berlin: Wer Hemingway imitiert, schreibt anonym

Von Philipp Elsbrock

De-Anonymisierung per Stilanalyse: Informatiker zeigen, wie man Autoren über ihren Schreibstil enttarnt. Wer Angst davor hat, sollte seinen Stil bewusst verfälschen - und Ernest Hemingway nachahmen.

Logo des 28C3: Der Chaos Communication Congress in Berlin endet an diesem Freitag Zur Großansicht
Getty Images

Logo des 28C3: Der Chaos Communication Congress in Berlin endet an diesem Freitag

Informatiker der Drexel University in Philadelphia können bei anonym veröffentlichten Texten unter Umständen allein am Stil erkennen, wer sie geschrieben hat.

Auf dem Hacker-Treff des Chaos Computer Clubs in Berlin erläuterten die Wissenschaftler, wann die De-Anonymisierung per Stilanalyse möglich ist - und wie man sich davor schützen kann (PDF-Dokument des Vortrags).

Das Team um die Assistenzprofessorin Rachel Greenstadt benutzt eine sprachwissenschaftliche Disziplin, die Stilometrie heißt. Mit statistischen Werkzeugen schauen sich die Wissenschaftler verschiedene Kenngrößen an, mehr als hundert sind es insgesamt: Welchen Wortschatz benutzt ein Schreiber, wie lang sind seine Sätze durchschnittlich, wie viele Silben haben seine Worte normalerweise? Eine wichtige Rolle spielen auch Funktionsworte, die wenig inhaltliche, sondern fast ausschließlich grammatikalische Bedeutung haben, zum Beispiel: und, aber, nicht.

Hat die Software das einmal analysiert, lässt sich für jeden Text eine Art Fingerabdruck erstellen - der sogenannte Writeprint. Die Wissenschaftler führten ein Experiment durch, in dem sie Writeprints verschiedener Texten verglichen. Das Ergebnis: Mit einer Wahrscheinlichkeit von 80 bis 90 Prozent erkannten sie die richtigen Autoren.

Das FBI schnüffelt schon

Und das ist keine wissenschaftliche Spielerei. "Das FBI analysiert den Schreibstil von Menschen, um sie zu identifizieren", sagte Michael Brennan, der bei Rachel Greenstadt promoviert. Er zitierte aus dem Buch des einstigen WikiLeaks-Manns Daniel Domscheit-Berg: Gründer Julian Assange und Domscheit-Berg seien froh gewesen, dass niemand so genau die Texte der Enthüllungsplattform gelesen habe. "Ansonsten wäre vielleicht eher aufgefallen, dass es nur zwei Menschen waren, die dahinter steckten", zitiert Brennan.

Die Methode, Autoren über ihren Stil zu identifizieren, funktioniert nur unter bestimmten Voraussetzungen. Zum einen muss es schon einen Kreis an Verdächtigen geben, die Forscher begrenzen die Zahl hier willkürlich auf 50. Zum anderen müssen genügend Proben vorhanden sein, mit denen ein verdächtiger Text abgeglichen werden kann. Als Quelle eignen sich Tweets genau so wie seitenlange Artikel. Je länger ein verdächtiger Text ist und je zahlreicher die gesammelten Vergleichstexte sind, desto präziser funktioniert die Erkennung. Wobei die Erkennung ähnlicher Texte natürlich nur zur De-Anonymisierung führt, wenn man irgendwo einmal unter seinem wahren Namen publiziert hat.

Es ist theoretisch möglich, mit dieser Methode die anonym bei Internetdiensten wie Etherpad oder Pastebin veröffentlichten Texten Autoren zu bestimmen. Allerdings ist das nur in Fällen denkbar, in denen sich der Kreis denkbarer Autoren irgendwie vorab einschränken lässt. Denn bei Diensten wie Pastebin erscheinen, ähnlich wie bei Twitter, so viele Texte von so vielen möglichen Autoren, dass praktisch kaum eine Möglichkeit besteht, den wahren Urheber auszumachen.

Verfolgte Blogger können aufatmen

Anonyme Blogger aus Ländern mit autoritären Regimes müssen sich also nicht fürchten - allerdings könnten leistungsfähigere Computer umfassendere Analysen ermöglichen.

Misstrauische Schreiber sollten vorsorgen: Indem man bewusst seinen Stil verfälscht, fällt man durch das Erkennungraster, das Brennan und seine Kollegen entwickelt haben. Ob das so bleibt, ist unklar, denn eine generelle Tendenz haben sie aber schon ausgemacht. "Wenn Menschen lügen, benutzen sie häufig eine einfachere Sprache - das zeigt sich auch schriftlich", sagte Brennans Kollegin Sadia Afroz.

Einen sicheren Ausweg gibt es schon: einfach den Stil von anderen imitieren. Als reicher Fundus bieten sich die Werke berühmter Schriftsteller an, etwa Ernest Hemingway oder William Faulkner. Bei solchen Imitaten versagt die Zuordnung komplett. Zwar erkannten die Forscher in einem weiteren Experiment mit diesen Autoren, dass es sich um imitierten Stil handelt. Sie verglichen Originaltexte mit Beiträgen aus Hemingway/Faulkner-Ähnlichkeitskeitswettbewerben. Wer sich wirklich dahinter verbarg, fanden sie aber nicht heraus.

Diesen Artikel...

© SPIEGEL ONLINE 2011
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH



Fotostrecke
Hacker-Treffen: Von Staatstrojanern und Spionage-Hardware

Netzwelt auf Twitter

Über diesen Account erreichen Sie das Ressort und verpassen keinen Artikel.


Fotostrecke
30 Jahre Chaos Computer Club: Nerds mit Bärten

Anzeige
  • Christian Stöcker:
    Spielmacher

    Gespräche mit Pionieren der Gamesbranche.

    Mit Dan Houser ("Grand Theft Auto"), Ken Levine ("Bioshock"), Sid Meier ("Civilization"), Hideo Kojima ("Metal Gear Solid") u.v.a.

    SPIEGEL E-Book; 2,69 Euro.

  • Bei Amazon kaufen.
Der kompakte Nachrichtenüberblick am Morgen: aktuell und meinungsstark. Jeden Morgen (werktags) um 6 Uhr. Bestellen Sie direkt hier: