SPIEGEL ONLINE

SPIEGEL ONLINE

12. September 2019, 18:51 Uhr

Deepfakes

Im falschen Film

Von

Gefälschte Videos von Politikern und Promis gelten als mächtige Werkzeuge für Desinformation und Betrug. Doch wie lässt sich ein manipulierter Film erkennen?

Es klang für viele Medien einfach zu spektakulär-verlockend, um es zu ignorieren: Der Chef einer britischen Firma bekam angeblich einen Anruf vom CEO des deutschen Mutterkonzerns - mit der Anweisung, umgehend 220.000 Euro auf ein bestimmtes Konto zu überweisen. Weil der Brite die Stimme und den Akzent des Deutschen zu erkennen geglaubt habe, habe er die Zahlung durchgeführt. Doch die Stimme sei gefälscht gewesen, generiert von einer Deepfake-Software, die mit Tonaufnahmen des CEOs trainiert worden sei. Das Geld sei bei Betrügern gelandet.

Das ist - verkürzt dargestellt - die Story, die bereits im Juni durch deutsche Medien ging, vor zwei Wochen auch im "Wall Street Journal" erschien und nun wieder in deutschen Medien auftaucht. Die einzige Quelle ist die Versicherung des ungenannten Konzerns, Euler Hermes. Es gibt allerdings keine Belege dafür, dass die Story stimmt.

"Neue Betrugsmasche: Erster Fake President Fall mit Stimmimitation durch KI-Software", schreibt Euler Hermes in seiner Pressemitteilung. Fake President wird die Betrugsmasche genannt, bei der sich die Täter als Chef ausgeben, KI steht für künstliche Intelligenz, in diesem Fall Deep Learning, der technischen Grundlage für Deepfakes.

Doch auf die Frage, woher man denn wisse, dass eine solche Software und kein Stimmenimitator zum Einsatz gekommen ist, antwortet eine Pressesprecherin dem SPIEGEL per E-Mail: "Wir wissen es nicht mit 100% Sicherheit. Theoretisch könnte es ein menschlicher Stimmenimitator gewesen sein. Aber wir gehen nicht davon aus. Dafür gibt es einige Anhaltspunkte (aber keine Beweise)."

Die Anhaltspunkte wiederum, die sie nennt, haben keinen technischen Bezug, man muss sie keineswegs als Indizien für einen Deepfake interpretieren. Der angeblich "erste Fall" kann daher allenfalls als "möglicher Fall" bezeichnet werden. Was durchaus symptomatisch ist für die Debatte über Deepfakes und die daraus entstehenden Risiken.

Das düstere Szenario, vor dem Politiker, IT-Sicherheitsunternehmen, Forscher, Medien und selbst Geheimdienste warnen, sieht so aus: Es wird zunehmend einfach, mit Deepfakes jedes beliebige Gesicht in jedes beliebige Video zu setzen und beliebige Stimmen nachzuahmen, ohne dass die Manipulation auffällt. Wer die Mimik und Stimmen von Regierungschefs, CEOs oder anderen mächtigen Menschen synthetisieren und sie beliebige Sätze sagen lassen kann, hat potenziell sehr wirksame Werkzeuge für Desinformation, Verleumdung, Betrug und Erpressung.

Die Realität sieht - Stand September 2019 - weniger düster aus. Die Technik entwickelt sich zwar rasch weiter. Aber Deepfakes sind heute entweder einfach herzustellen oder (zumindest ansatzweise) überzeugend. Mit der chinesischen App Zao etwa können sich Nutzer per Selfie in bekannte Filmszenen schneiden, aber realistisch sieht das nicht aus. Für vergleichsweise hochwertige sogenannte Face Swaps, also den Austausch von Gesichtern oder zumindest der Mundpartie in einem Video, braucht man spezielle Hardware und Software, mindestens einen halben Tag, besser aber mehrere Tage Zeit sowie Erfahrung im Umgang mit Trainingsdaten und am besten auch dem Feintuning von Machine-Learning-Modellen. Diese Videoanleitung zum Beispiel gibt einen Eindruck vom nötigen Arbeitsaufwand.

Aber auch nach einem gelungenen Face Swap hat das neue Gesicht noch die alte Stimme. Ein Fall, in dem Bilder und Tonspur überzeugend von einer Deepfake-Software erstellt wurden, ist bisher nicht bekannt geworden. Der größte Schaden, den Deepfakes bisher angerichtet haben, dürfte in der Demütigung von Menschen liegen, deren Gesichter in Pornovideos montiert wurden - unabhängig von der Qualität der Fälschung.

Gleichzeitig werden derzeit stattliche Summen für die Entwicklung neuer Werkzeuge ausgegeben, die Fälschungen auch dann erkennen sollen, wenn das menschliche Auge oder Gehör überfordert ist. Facebook, Microsoft und einige andere amerikanische Unternehmen und Universitäten zum Beispiel haben gerade einen entsprechenden Wettbewerb und insgesamt zehn Millionen Dollar Preisgeld ausgelobt. Darpa, die Forschungsbehörde des US-Verteidigungsministeriums, hat nach der Hälfte ihres auf vier Jahre ausgelegten Förderprogramms bereits 68 Millionen Dollar verteilt, unter anderem an Hany Farid, Professor in Berkeley und Pionier auf dem Gebiet der Deepfake-Erkennung.

Die Mimik-Methode

Farid hat zusammen mit Kollegen einen Weg gefunden, die jeweils typischen Gesichtsmuskel- und Kopfbewegungen eines Menschen beim Sprechen aus einem Video zu extrahieren und ein Modell davon zu bilden. Die Bewegungen sind so minimal und individuell, dass heutige Deepfake-Algorithmen sie nicht abbilden können. Beim Abgleich erkennt Farids Werkzeug deshalb mit hoher Zuverlässigkeit ein gefälschtes Video, in dem ein ganzes Gesicht oder auch nur die Lippenpartie ausgetauscht wurde, um dem Menschen im Video beliebige Worte in den Mund zu legen.

Noch im Dezember will Farid es Journalisten auf einer Website zur Verfügung stellen, inklusive den Modellen aller Kandidaten für die US-Präsidentschaftswahl 2020. Deepfakes von anderen Prominenten kann die Technik dementsprechend zunächst nicht erkennen, das Werkzeug ist speziell auf die US-Wahl ausgelegt und wäre daher selbst dann kein Allheilmittel, wenn es den Deepfakes-Generatoren immer überlegen bliebe. Dem SPIEGEL schreibt Farid dazu in einer E-Mail: "Diese Technik ist nicht dazu gedacht, alle Videos auf YouTube oder Facebook zu analysieren. Sie ist vielmehr Teil eines größeren Werkzeugkastens, der Journalisten helfen soll, eine Story zu verifizieren."

Die "Mouthnet"-Methode

Andere Forscher und Firmen arbeiten an generellen Lösungen, die sich auf jedes Video anwenden lassen. Mouthnet ist ein Beispiel für ein solches System, entwickelt von Matt Price, Forscher bei der IT-Sicherheitsfirma ZeroFox. Mouthnet analysiert die Mundpartien in Videos und extrahiert sowohl für Menschen deutlich sichtbare als auch unauffällige Merkmale aus den einzelnen Bildern. Ein häufiger grober Fehler von Deepfake-Generatoren ist die Darstellung von Zähnen als zusammenhängende, gleichmäßige Reihe. Subtiler sind dagegen bestimmte digitale Artefakte, die beim Erstellen eines Fake-Videos entstehen. "Mouthnet erkennt, dass manche Pixel nicht von einer Kamera stammen", sagt Matt Price. Zähne werden bald realistischer aussehen, vermutet er, aber die verräterischen Pixel "werden so schnell nicht verschwinden".

Bisher erkennt sein Modell allerdings nur rund jedes zweite Deepfake-Video und hält jedes vierte echte Video für eine Fälschung - für den Alltagseinsatz ist das noch untauglich. Der an der Technischen Universität München entwickelte Algorithmus FaceForensics (++) hingegen erkennt knapp vier von fünf Deepfake-Videos.

Die Mäuse-Methode

Zukunftsmusik ist hingegen die Idee, die George Williams im August auf der IT-Sicherheitskonferenz Black Hat in Las Vegas vorgestellt hat. Williams arbeitet für den Hardware-Hersteller GSI Technology aus Kalifornien, der unter anderem Mikroprozessoren für Deep-Learning-Anwendungen entwickelt. Zusammen mit dem Neurobiologen Jonathan Saunders und dem Datenwissenschaftler Alexander Comerford behauptet er: Mäuse können den Menschen verraten, ob eine Stimme echt oder von einem System wie zum Beispiel Googles Tacotron 2 nachgemacht ist.

"Mäuse haben ein ähnliches Gehörsystem wie Menschen", sagt Williams. "Sie müssen aber keinen Sinn in den Tönen erkennen, die man ihnen vorspielt. Sie erkennen deshalb Artefakte, die auf synthetisierte Stimmen hindeuten, besser als wir Menschen." Es sei möglich, Mäusen in 18 Wochen eine achtzigprozentige Trefferquote bei der Erkennung von gefälschten Aufnahmen beizubringen, sagt Williams.

Das Ziel sei natürlich nicht, Millionen von Mäusen zu trainieren und sie an Millionen von Menschen zu verteilen, sondern ihre Fähigkeit sozusagen als Muster digital in einer Software nachzubilden. Bis das gelingen kann, ist aber noch viel Forschungsarbeit nötig: "Wir reden hier über Jahre", sagt Saunders.

Die Markierungs-Methode

Firmen wie Truepic und Projekte wie ProofMode wiederum setzen ganz am Anfang an, in den Kameras. Truepic hat eine App entwickelt, die jedes Foto und jedes Video bei der Aufnahme mit einer Art digitalem Wasserzeichen markiert. Es besteht aus Daten aus dem Bildsensor sowie verschiedenen Metadaten wie Ort und Zeit einer Aufnahme, wird kryptografisch signiert, verschlüsselt in eine Datenbank oder Blockchain übertragen und gespeichert. Jedes so geschossene Foto, das im Internet auftaucht, kann anhand des Wasserzeichens auf seine Herkunft und Integrität überprüft werden.

Der Nachteil dieser Technik: Sie muss erst weitverbreitet und akzeptiert sein, zum Beispiel durch eine Integration in die Kamerasoftware des iPhones, damit Menschen bei Bildern und Videos ohne Wasserzeichen misstrauisch werden und genauer hinsehen.

Wer übernimmt die Verantwortung?

Neben der Suche nach der richtigen Erkennungstechnik ist dies die nächste ungelöste Frage zum Umgang mit Deepfakes: Soll letztlich jemand für die Erkennung verantwortlich sein und wenn ja, wer? Hardware-Hersteller? Die Betreiber sozialer Netzwerke und anderer Onlineplattformen? Jeder einzelne Internetnutzer? Aus verschiedenen Gründen sind alle drei Ansätze schwer vorstellbar.

Selbst wenn alle Hardware-Hersteller von allen Regierungen gesetzlich verpflichtet oder sich freiwillig einigen würden, so etwas wie Truepic zu integrieren, gäbe es noch Milliarden alter Geräte ohne Wasserzeichen-Funktion auf der Welt. Damit ist auch klar, dass niemals alle Menschen gezwungen werden könnten, ausschließlich manipulationsgeschützte Inhalte zu erstellen oder alles auf Authentizität zu überprüfen, was ihnen im Internet begegnet. Vorstellbar wäre allenfalls eine Selbstverpflichtung von Medien, eigene Inhalte mit Wasserzeichen zu versehen und nur überprüfte Inhalte in der Berichterstattung als authentisch zu betrachten. Doch wer Medien schon heute nicht vertraut, wird das auch dann nicht tun.

Bleiben noch die Diensteanbieter. "Ich stelle mir vor, dass diese Techniken von den Facebooks, Twitters und YouTubes dieser Welt eingesetzt werden", sagt Hany Farid, und er ist mit dieser Meinung nicht allein. Zumindest das Skalierungsproblem wäre so gelöst: ein Deepfake-Detektor für Millionen Nutzer.

Dafür gäbe es eine weitere Überwachungsschicht im Netz, denn eine Deepfake-Erkennung auf der Plattformebene wäre nichts anderes als ein zusätzlicher Uploadfilter oder ein nachgelagerter Filter. Auf Facebook, Twitter, YouTube und anderen Seiten käme zu den Algorithmen, die automatisch Terrorinhalte, dokumentierten Kindesmissbrauch und Urheberrechtsverletzungen aussortieren sollen, noch einer hinzu. Und ebenso wie die anderen kann er auch mal falsch liegen, was die Nutzer aber irgendwie merken können müssten.

Jonathan Saunders, der Neurobiologe mit den Mäusen, glaubt deshalb letztlich nicht an eine technische, sondern an eine gesellschaftliche Antwort auf das Deepfake-Phänomen: "Die Lektion, die wir durch Photoshop gelernt haben, ist das Vorbild. Es gab eine Reihe von gefälschten Fotos, die großen Schaden angerichtet haben, aber wir haben unsere Erwartungen angepasst." Sobald Menschen erst einmal einer Reihe von überzeugenden Deepfakes begegnet seien, "werden sie aufhören, alles zu glauben".

URL:

Verwandte Artikel:

Mehr im Internet


© SPIEGEL ONLINE 2019
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung