Videomanipulation Wie Bilder lügen lernen

US-Tüftler sind in der Lage, Menschen auf dem Bildschirm beliebige Sätze in den Mund zu schieben. Steht jetzt die Glaubwürdigkeit von Filmen in Frage?


Als sich Frankreichs eitler Sonnenkönig Ludwig XIV. wieder in Öl porträtieren ließ, suchte er sich und der Nachwelt die Wahrheit zu ersparen: Alt und dick gab der Monarch dem Maler den Befehl zu betrügen ­ er sollte des Königs krumme Beine austauschen gegen die eines wohlgewachsenen Jünglings.

Bilder lügen immer schon, ob auf der Leinwand oder auf Papier. Retuscheure, vor allem aber Computerprogramme wie Photoshop haben das Publikum mittlerweile an den Gedanken gewöhnt, dass ein Foto, so echt es aussieht, nicht unbedingt wahrhaftig ist. Die Haut der Models erscheint reiner, als sie je war, der Himmel blauer; Menschen lassen sich aus Bildern wegzaubern oder auf vollkommene Weise in eine fremde Szenerie montieren.

Sprachanimation am MIT: Oben authentisches Videomaterial mit natürlichen Augen- und Kopfbewegungen einer Versuchsperson. Mitte: am Computer erzeugte Folge von Mundbewegungen. Unten: synthetischer Film ­ die virtuelle Frau spricht Worte, die sie im ursprünglichen Video nicht sagte.
AI LAB. / MIT

Sprachanimation am MIT: Oben authentisches Videomaterial mit natürlichen Augen- und Kopfbewegungen einer Versuchsperson. Mitte: am Computer erzeugte Folge von Mundbewegungen. Unten: synthetischer Film ­ die virtuelle Frau spricht Worte, die sie im ursprünglichen Video nicht sagte.

Aber nun ist auch die wohl letzte Bastion augenscheinlicher Authentizität gefallen: Nicht einmal ungeschnittenes, scheinbar objektives Videomaterial ist vor digitaler Manipulation sicher. Wer George W. Bush vor sich auf dem Bildschirm über die "Achse des Bösen" hat schwadronieren hören, der konnte bisher als indirekter Augen- und Ohrenzeuge davon ausgehen, dass Bush tatsächlich über die "Achse des Bösen" gesprochen hat. Wenn Susan Stahnke ihre Lust an der Darmspiegelung offenbarte, dann war für all die Peinlichkeit niemand verantwortlich außer sie selbst.

Von jetzt an sind Zweifel erlaubt ­ und vielleicht sogar geboten.

Schuld daran ist Tony Ezzat, 30, Doktorand am berühmten Massachusetts Institute of Technology (MIT) in Cambridge bei Boston. Als eine Art Computer-Hexer hat Ezzat die Macht, Menschen am Bildschirm beliebige Worte in den Mund zu schieben ­ Worte, die dieser Mensch womöglich nie benutzt hat und auch niemals benutzt hätte.

Ezzat wird seine mittlerweile ausgefeilte Software im Juli im texanischen San Antonio auf der "Siggraph" vorstellen, der bedeutendsten Konferenz für Computergrafik. Seinen Bilderzauber nennt er "videorealistische Sprachanimation": Auf dem Monitor passen die Mundbewegungen seiner sprechenden Köpfe auf perfekte Weise zu den Lauten, die sie von sich geben. Bei jedem "l" schnellt die Zunge nach vorn, bei jedem "m" schließen sich die Lippen.

Das Produkt sieht aus wie gefilmter Film ­ aber es ist keiner.

Die Qualität von Ezzats Arbeit geht weit hinaus über das Niveau von Synchronsprechern oder bisheriger Digitalanimationen aus Hollywood: In Tests haben selbst aufmerksame Zuschauer Ezzats Fälschungen nicht von echten Videoaufzeichnungen unterscheiden können.

Auch in aufwendigen Spielfilmen wie "Forrest Gump", in dem Schauspieler Tom Hanks US-Präsident John F. Kennedy die Hand schüttelt, war eine so totale Illusion bisher nicht möglich.

Wenn Ezzat wollte, dann könnte bald ein Video auftauchen, auf dem Helmut Kohl seine Spender nennt; oder eines, in dem O. J. Simpson verkündet, seine Frau ermordet zu haben. Rudolf Scharping könnte auf Spanisch Liebesverse säuseln, der Papst den Zölibat verfluchen und das ZDF mit Marilyn Monroe die Tradition der Fernsehansagerinnen wiederbeleben.

Ezzats Technik der vollautomatischen Bildmanipulation eröffnet neue Horizonte ­ für Computerspiele und Spielfilme, aber auch für politische Propaganda, Bloßstellung und Demontage öffentlicher Personen, für Erpressung und Betrug. Und Verschwörungstheoretiker könnten schon bald scheinbar überzeugende Videobeweise vorlegen für wahnwitzige Konstruktionen, etwa über die Hintergründe der Anschläge vom 11. September.

"Dies ist eine wirklich bahnbrechende Arbeit", lobt Demetri Terzopoulos von der New York University. Der anerkannte Experte auf dem Gebiet der Computeranimation von Gesichtern ist jedoch besorgt über ihre Konsequenzen: "Wenn wir Leute Dinge sagen lassen können, die sie nicht gesagt haben, dann können daraus wirklich katastrophale Situationen erwachsen." Auch Ezzat räumt Missbrauchspotenzial ein: In falschen Händen könne seine Technik "ein gefährliches Werkzeug" sein. Gefragt, welche Reaktionen er aus Kreisen der Sicherheits- und Geheimdienste bekommen hat, sagt er nur: "kein Kommentar". Mit Firmen aus der Unterhaltungsbranche jedoch stehe er bereits in konkreten Gesprächen.

Noch sind die Möglichkeiten der Software begrenzt. Sie funktioniert nur, wenn der dargestellte Mensch seinen Kopf ruhig hält. Auch Perspektivwechsel der Kamera lassen die Animation ersterben. Sequenzen, die über ein, zwei Sätze hinausgehen, wirken weniger real, da das Gesicht als zu starr und unemotional erscheint. Ezzats Software kann ein Gesicht zwar optisch präzise neue Sätze sprechen lassen, sie kopiert jedoch nicht die Stimme.

Um etwa Helmut Kohls Stimme und Sprechweise in ein Geständnis-Video einzubauen, müsste Ezzat im Augenblick noch Sprachsoftware anderer Universitäten einbeziehen. Tomaso Poggio, Ezzats Doktorvater am MIT, glaubt jedoch, dass wechselnde Perspektiven und die Integration perfekt simulierter Sprache in die Software nicht lange auf sich warten lassen werden.

Ezzat braucht nicht viel, um zum Beispiel Gerhard Schröders Mund auf die gleiche Weise zu bewegen, wie Schröder selbst es tun würde. Zwei bis vier Minuten Videomaterial einer Rede vor dem Bundestag wären schon genug. Aus solchen kurzen Videoaufnahmen extrahiert er für jeden charakteristischen Laut eine kennzeichnende Mundbewegung; ein Katalog von nur 46 Mund-Bildern reicht ihm aus.

Dann bringt er dem Computer bei, nach welchem Algorithmus sich der Mund verändern soll, wenn er von einem Laut zum anderen wechselt. Die Bilder werden "gemorpht". Am Ende schließlich kann Ezzat einen Text in den Computer tippen, den ein Digital-Schröder sodann automatisch mit korrekten Lippenbewegungen vortragen könnte. Lässt er dann noch einen guten Stimmenimitator den entsprechenden Text aufsagen, könnte Ezzat das überzeugende Video einer Rücktrittserklärung des Kanzlers in wenigen Tagen zu Wege bringen.

Die zwiespältige Erfindung aus dem MIT hat aufs Neue Spekulationen angeregt, ob das Amateur-Video von Osama Bin Laden, das die Amerikaner im Dezember vorführten, echt war. Der Oberterrorist scheint darin im Kreis von Getreuen seine Verantwortung für die Anschläge zu bestätigen und brüstet sich, dass die meisten Attentäter vom 11. September nicht gewusst hätten, auf was für einer Selbstmord-Mission sie sich befanden.

Die meisten Experten sind nach wie vor davon überzeugt, dass das Video authentisch war: Bin Laden bewegt sich lebhaft, ebenso seine Gefolgschaft, sie alle sind nicht nur aus der für Manipulationen günstigen Frontalperspektive zu sehen.

Ein Bilderfälscher hätte im Video zudem für eine leicht düstere Atmosphäre gesorgt, denn in ihr lassen sich Hinweise auf veränderte Bilder am besten verbergen. Das Bin-Laden-Video hingegen war durchgängig hell.

MARCO EVERS



© SPIEGEL ONLINE 2002
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.