Audio-Editor So stellt sich Adobe ein Photoshop für Sprache vor
Irgendwann wird es Jordan Peele ein wenig unheimlich. Der US-Comedian springt von seinem Stuhl auf, schaut irritiert auf die Leinwand und ruft scherzhaft: "Du bist eine Hexe!" Peele kann kaum glauben, was er hört. Das Ergebnis der Adobe-Software VoCo ist tatsächlich ziemlich verblüffend.
Ein YouTube-Video zeigt, wie Adobe-Entwickler Zeyu Jin bei der "Adobe Max"-Konferenz in San Diego einen gesprochenen Satz von Peeles Comedy-Partner aus der Show "Key & Peele" abspielt. "Ich habe meine Hunde und meine Frau geküsst" lautet die Original-Aussage. Dann baut der Zeyu Jin den Satz in einem Texteditor um und tippt neue Wörter ein. Er befiehlt der Software, den veränderten Inhalt vorzulesen.
Nach ein paar Sekunden erscheint eine neue Tonspur auf der Leinwand: "Ich habe Jordan dreimal geküsst". Das Ergebnis klingt so echt aus den Lautsprechern, als hätte der Partner von Jordan Peele diesen Satz wirklich gesagt. Im Gegensatz zu Sprachassistenten im Navi oder auf Smartphones liest die Adobe-Software namens VoCo den manipulierten Satz flüssig und mit authentischer Stimmlage vor.
Noch ist VoCo in der Entwicklungsphase. Doch das Tool könnte einige Jobs erleichtern. So wäre es für Radiojournalisten einfacher, die "Ähs" und "Ähms" aus Interviews zu tilgen. Herausgeber von Podcasts und Hörbüchern könnten auf diese Weise komplette Werke von einem Computer einsprechen lassen. Nach Angaben der Entwickler benötigt die Software lediglich eine 20-minütige Sprachprobe, um Stimmen zu imitieren, und jeden beliebigen Text vorzulesen.
Manipulations-Tool für Verschwörungstheoretiker?
Doch das Photoshop für Audiodateien birgt auch Risiken. Mitschnitte von politischen Reden könnten manipuliert und Aussagen verzerrt werden, um Verschwörungstheorien zu verbreiten. "Damit könntet ihr euch große Probleme einhandeln", sagt Jordan Peele bei der Konferenz und gibt zu Bedenken, dass diese Technologie nicht in die falschen Hände geraten dürfe.
Mit der Software könnten Betrüger auch versuchen, biometrische Sicherheitssysteme auszutricksen. Mittlerweile bieten immer mehr Banken und Versicherungen die Möglichkeit an, dass Kunden ihre Stimme als Passwortschutz einsetzen.
Was passiert also, wenn eine Stimmprobe mit Programmen wie VoCo gefälscht wird? "Wir sind sicher, dass wir Täuschungsversuchen immer einen Schritt voraus sind", sagt Nils Lenke gegenüber SPIEGEL ONLINE. Der Forscher arbeitet beim Unternehmen Nuance, das biometrische Sicherheitssysteme entwickelt und Apple bei der Programmierung des Sprachassistenten Siri unterstützt hat. Nuance hat unter anderem die biometrische Stimmerkennung für die HSBC-Bank und den Telekommunikationskonzern TalkTalk entwickelt. Mehr als 130 Millionen Kunden verwenden nach Angaben von Nuance bereits ihre Stimme als Passwort.
Adobe will Missbrauch verhindern
Eine Gefahr sieht Lenke nicht bei Betrugsversuchen mit Software wie VoCo. "So eine Software ist ein alter Hut" und sei eher für den Hausgebrauch geeignet, sagt Lenke. Sollten Betrüger versuchen, die Stimme eines Bankkunden zu simulieren, dann erkenne man schnell, ob eine Software das Sprachsignal verändert hat. Auch wenn die Stimme für das menschliche Ohr natürlich klingen sollte: Die Algorithmen der Manipulationssoftware hinterlassen dem Forscher zufolge deutliche synthetische Spuren, die sich leicht entlarven lassen.
Auch Adobe ist sich offenbar der Gefahr bewusst, dass die VoCo-Software missbraucht werden könnte. Ein Sprecher des Unternehmens sagt gegenüber SPIEGEL ONLINE, dass man mögliches Missbrauchspotenzial überprüfe und an einer Art akustischem Wasserzeichen arbeite, "das in erstellte Aufnahmen eingearbeitet wird und so mögliche Fälschungen entlarven kann".