Künstliche Intelligenz Forscher lassen die Mona Lisa sprechen

Mithilfe künstlicher Intelligenz ist es schon länger möglich, Videos zu fälschen. Per Computer kann man den Anschein erwecken, jemand hätte Dinge getan, zu denen er nie fähig wäre oder hätte Dinge gesagt, die er nie sagen würde.
Der Weg dahin war bisher aber aufwendig: Damit sie realistisch wirkende Bewegungen einer Person errechnen konnte, musste man eine künstliche Intelligenz (KI) mit vielen Bilder oder Videoclips dieser Person trainieren. Forschern des Elektronikkonzerns Samsung genügt nun ein einziges Porträt, um daraus ein Video zu erzeugen, auf dem die fragliche Person sich bewegt und spricht. Das funktioniert sogar mit Ölbildern.
Gemeinsam mit russischen Wissenschaftlern haben die Koreaner einen Bericht (PDF) darüber veröffentlicht, wie sich so genannte Deepfake-Videos ganz einfach erstellen lassen.
Ihren Ansatz beschreiben die KI-Forscher so: "Tatsächlich kann unser System ordentliche Ergebnisse anhand nur eines Fotos erstellen, während zusätzliche Fotos den Personalisierungsgrad erhöhen." Dafür sei freilich auch einige Vorarbeit nötig gewesen. Um ihre Technik zu ermöglichen haben die Forscher eine sogenanntes neuronales Netzwerk mit zahlreichen aus unterschiedlichen Kameraperspektiven gedrehten Interviews trainiert. So sollte das System die möglichen Bewegungen menschlicher Gesichter erfassen.
Viel hilft viel
In einem YouTube-Video zeigen die Wissenschaftler, wie die Ergebnisse ihrer Arbeit aussehen. Darin wird unter anderem das Ölgemälde "Mona Lisa" von Leonardo da Vinci animiert. Drei verschiedene Schauspieler geben die Bewegungen vor, die die digitale Mona Lisa wie eine Puppe nachspielt. Bei dem Ölgemälde klappt das richtig gut. Bei anderen Videos lässt sich die Täuschung ziemlich leicht erkennen.
Bei einem animierten Foto von Marilyn Monroe etwa bewegen sich Augen, Wangenknochen und Mund realistisch, während sich rund um das Gesicht und in den Haaren deutliche Artefakte bilden. Hier ist die Täuschung leicht zu erkennen.
Aus den misslungenen Beispielen machen die Forscher keinen Hehl. Sie sagen: Je mehr Bilder für das Training zur Verfügung stehen, desto realistischer würden die Videos. Sie haben Zuschauer gebeten, den Realismus ihrer Fake-Videos zu bewerten. Das Ergebnis: Bereits mit 32 Bildern einer Person ist es laut den Forschern möglich, "perfekte Werte für Realismus und Personalisierung zu erreichen".
Unter anderem könnte die Videospiel-Industrie von der neuen Technik profitieren und von aufwendigen Motion-Capturing-Verfahren auf KI-Videos umsatteln. Außerdem könnten Spezialeffekte in Hollywood günstiger am Computer produziert werden.
Doch es gibt auch eine Kehrseite: Künftig könnten nicht mehr nur Promis wie Barack Obama als Versuchskaninchen für Fake-Videos missbraucht werden, weil von diesen Personen eben zahlreiche Fotos und Videos im Netz kursieren. Ein Facebook-Profilbild könnte bald genügen, um gefälschte Videos wie echt wirken zu lassen. Wozu das führen kann, zeigte die Aktion eines Reddit-Nutzers, der Gesichter Unbeteiligter in Pornovideos montierte.
Noch kritischer könnte der rasante Fortschritt in der Deep-Fake-Forschung dann werden, wenn auch Sound-Programme wie Adobes VoCo so weit ausgereift sind, um Stimmen zu imitieren. Dann steht Interviews mit falschen Aussagen zumindest technisch nichts mehr im Wege.