Audio-Editor So stellt sich Adobe ein Photoshop für Sprache vor

Softwarehersteller Adobe hat ein Programm vorgestellt, das Nutzern erlaubt, Sprachaufzeichnungen per Texteditor zu manipulieren. Das Ergebnis klingt beeindruckend - und birgt einige Risiken.

Von


Irgendwann wird es Jordan Peele ein wenig unheimlich. Der US-Comedian springt von seinem Stuhl auf, schaut irritiert auf die Leinwand und ruft scherzhaft: "Du bist eine Hexe!" Peele kann kaum glauben, was er hört. Das Ergebnis der Adobe-Software VoCo ist tatsächlich ziemlich verblüffend.

Ein YouTube-Video zeigt, wie Adobe-Entwickler Zeyu Jin bei der "Adobe Max"-Konferenz in San Diego einen gesprochenen Satz von Peeles Comedy-Partner aus der Show "Key & Peele" abspielt. "Ich habe meine Hunde und meine Frau geküsst" lautet die Original-Aussage. Dann baut der Zeyu Jin den Satz in einem Texteditor um und tippt neue Wörter ein. Er befiehlt der Software, den veränderten Inhalt vorzulesen.

Nach ein paar Sekunden erscheint eine neue Tonspur auf der Leinwand: "Ich habe Jordan dreimal geküsst". Das Ergebnis klingt so echt aus den Lautsprechern, als hätte der Partner von Jordan Peele diesen Satz wirklich gesagt. Im Gegensatz zu Sprachassistenten im Navi oder auf Smartphones liest die Adobe-Software namens VoCo den manipulierten Satz flüssig und mit authentischer Stimmlage vor.

Noch ist VoCo in der Entwicklungsphase. Doch das Tool könnte einige Jobs erleichtern. So wäre es für Radiojournalisten einfacher, die "Ähs" und "Ähms" aus Interviews zu tilgen. Herausgeber von Podcasts und Hörbüchern könnten auf diese Weise komplette Werke von einem Computer einsprechen lassen. Nach Angaben der Entwickler benötigt die Software lediglich eine 20-minütige Sprachprobe, um Stimmen zu imitieren, und jeden beliebigen Text vorzulesen.

Manipulations-Tool für Verschwörungstheoretiker?

Doch das Photoshop für Audiodateien birgt auch Risiken. Mitschnitte von politischen Reden könnten manipuliert und Aussagen verzerrt werden, um Verschwörungstheorien zu verbreiten. "Damit könntet ihr euch große Probleme einhandeln", sagt Jordan Peele bei der Konferenz und gibt zu Bedenken, dass diese Technologie nicht in die falschen Hände geraten dürfe.

Mit der Software könnten Betrüger auch versuchen, biometrische Sicherheitssysteme auszutricksen. Mittlerweile bieten immer mehr Banken und Versicherungen die Möglichkeit an, dass Kunden ihre Stimme als Passwortschutz einsetzen.

Was passiert also, wenn eine Stimmprobe mit Programmen wie VoCo gefälscht wird? "Wir sind sicher, dass wir Täuschungsversuchen immer einen Schritt voraus sind", sagt Nils Lenke gegenüber SPIEGEL ONLINE. Der Forscher arbeitet beim Unternehmen Nuance, das biometrische Sicherheitssysteme entwickelt und Apple bei der Programmierung des Sprachassistenten Siri unterstützt hat. Nuance hat unter anderem die biometrische Stimmerkennung für die HSBC-Bank und den Telekommunikationskonzern TalkTalk entwickelt. Mehr als 130 Millionen Kunden verwenden nach Angaben von Nuance bereits ihre Stimme als Passwort.

Adobe will Missbrauch verhindern

Eine Gefahr sieht Lenke nicht bei Betrugsversuchen mit Software wie VoCo. "So eine Software ist ein alter Hut" und sei eher für den Hausgebrauch geeignet, sagt Lenke. Sollten Betrüger versuchen, die Stimme eines Bankkunden zu simulieren, dann erkenne man schnell, ob eine Software das Sprachsignal verändert hat. Auch wenn die Stimme für das menschliche Ohr natürlich klingen sollte: Die Algorithmen der Manipulationssoftware hinterlassen dem Forscher zufolge deutliche synthetische Spuren, die sich leicht entlarven lassen.

Auch Adobe ist sich offenbar der Gefahr bewusst, dass die VoCo-Software missbraucht werden könnte. Ein Sprecher des Unternehmens sagt gegenüber SPIEGEL ONLINE, dass man mögliches Missbrauchspotenzial überprüfe und an einer Art akustischem Wasserzeichen arbeite, "das in erstellte Aufnahmen eingearbeitet wird und so mögliche Fälschungen entlarven kann".



Forum - Diskutieren Sie über diesen Artikel
insgesamt 15 Beiträge
Alle Kommentare öffnen
Seite 1
GPTip.com 04.11.2016
1.
Ui, das ist eine folgenschwere Entwicklung. Synchronsprecher, Radiomoderatoren, "Off"-Sprecher in Werbung oder als Kommentator für Bildbeiträge könnten teilweise überflüssig werden. Man könnte die Stimme verstorbener Synchronsprecher wiederbeleben bzw. nutzen, wenn der zugehörige Schauschpieler noch lebt und Filmauftritte hat. Juristisch auch interessant wäre dann ein Recht an der eigenen Stimme, analog zum Recht am eigenen Bild. Die nächste Stufe wäre dann das Singen.....
Ge-spiegelt 04.11.2016
2. Ein Äähh rausschneiden geht einfacher
und Sprach Synthese gibt's auch schon. Adobe mag ich nicht. Muss leider Framemaker benutzen. Hat schlechte Usability und stürzt gerne mal ab. Und der Support verweigert sich einem wenn man eine Corporate Lizenz hat.
sparrenburger 04.11.2016
3.
Klasse, nur weiter so. Die Möglichkeiten das Haupt-Nachrichten Medium der Welt immer unglaubwürdiger zu machen. In zehn Jahren wäre dann wohl aus der Flughafenrede von Stoiber eine innovative Leistung gebastelt worden. Und da wundert man sich noch, dass der 08/15 Bürger den Glauben verliert. Bee is klar, nur dìe ähs.
Ringmodulation 04.11.2016
4. Das Video kann tatsächlich keinen Fachmann beeindrucken
Nach der ersten Manipulation ist vor "WIFE" ein deutliches Glucksen zu hören. Nach der zweiten Manipulation lassen die zu kurzen Pausen vor "AND MY" und "dogs" die Sprache zerhackt klingen, ähnlich wie die Sprachausgabe eines billigen Navigationssystems. Ich habe dennoch keine Zweifel, dass die menschliche Stimme in den nächsten Jahren weiter analysiert und besser imitiert wird -- vergleiche auch Googles Projekt "WaveNet"-- , so dass es immer schwerer wird, echte Aufnahmen von Fälschungen zu unterscheiden -- ganz so wie wir es bei Fotos schon jetzt beobachten müssen, auch auf Spiegel Online.
vaikl 04.11.2016
5. Ich nehme an,...
...selbst "engagierte" Hacker würden VoCo nicht benutzen wollen, weil es von Adobe stammt und damit schon geburtsseitig mit Bugs, Backdoors und NSA-Tretminen verseucht und höchstwahrscheinlich über ein Abomodell viel zu teuer ist. Und "Ähs" und "Ähms" werden schon seit Jahrzehnten von x-beliebiger Freeware aus den Interviews geschnitten. Was die (Stimm-)Manipulation selbst angeht - Melodyne (Celemony), Auto-Tune (Antares), VariAudio (Cubase/Steinberg) oder Flex Pitch (Logic/Apple) wehrten sich also standhaft, bei Google aufzupoppen, Herr Breithut?
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2016
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.