Sprachsynthesizer Lyrebird Diese Software imitiert jede Stimme

Das kanadische Start-up Lyrebird hat eine Software entwickelt, die in wenigen Minuten lernt, beliebige Stimmen nachzumachen. Wir haben sie ausprobiert.
Screenshot der Lyrebird-Website

Screenshot der Lyrebird-Website

"Was ist die Wirklichkeit? Wie definiert man das, Realität?", fragt der Computer mit meiner Stimme, wenn auch auf Englisch: "What is real? How do you define real?" Es ist ein Zitat aus dem Film "Matrix", das ich nie laut ausgesprochen habe. Und doch klingt das, was aus dem Computer vor mir kommt, ein bisschen wie ich.

Es ist die Software des kanadischen Start-ups Lyrebird, die meine Stimme imitiert und alles sagt, was ich ins Textfeld eintippe. Ihr Vorbild ist der Leierschwanz (Englisch: Lyrebird), der alle möglichen Geräusche täuschend echt nachahmen kann, menschliche Stimmen eingeschlossen. Sein einzigartiges Stimmorgan macht es möglich. Bei der gleichnamigen Firma übernimmt das ein sogenanntes tiefes neuronales Netzwerk, ein Werkzeug aus dem Bereich der künstlichen Intelligenz.

Das Training dauert nur ein paar Minuten

Trainiert mit Sprechproben Tausender Menschen, hat es gelernt, die für eine Stimme charakteristischen Merkmale zu erkennen. Für jeden neuen Sprecher, also zum Beispiel für mich, erstellt Lyrebird mit Hilfe dieser Technik einen individuellen Schlüssel, der "die DNA der Stimme" enthält, wie es das Unternehmen ausdrückt. Mit meinem Schlüssel wiederum kann Lyrebirds Software neue Sätze bilden, die ich so nie gesagt habe.

Im vergangenen Mai hatte das Start-up für Schlagzeilen gesorgt, als es erste Kostproben seines Könnens veröffentlichte. Der Stimmengenerator hatte unter anderem Donald Trump nachgemacht, in beeindruckender Qualität.

Seit einigen Tagen gibt es nun eine öffentliche Vorabversion der Software. Auf der Website von Lyrebird  kann jeder sie ausprobieren. Das Ergebnis klingt zum Beispiel so:

Zum Vergleich habe ich die Sätze noch einmal selbst eingesprochen:

Könnte die Software jemanden täuschen, der meine Stimme kennt? Momentan sicherlich nicht, denn Atmungs- und andere Nebengeräusche, die beim Sprechen auftreten, kann Lyrebird nicht erzeugen. Unter anderem deshalb klingt mein elektronischer Doppelgänger wie ein Roboter. Außerdem trifft er zumindest in meinem Fall nicht ganz das richtige Timbre. Aber allzu weit weg ist er auch nicht davon, und von einer Betaversion sollte man kein perfektes Ergebnis erwarten.

Schon gar nicht nach so kurzem Training. Denn länger als eine Minute braucht das neuronale Netz nach Angaben der Firma nicht, um "einige der wichtigsten Merkmale" einer Stimme aufzugreifen. Mein Training ist nur wenig länger. Es umfasst nur 100 vorgegebene Trainingssätze wie "I usually like to eat flying tomato salad" ("Normalerweise esse ich gerne fliegenden Tomatensalat") , die ich in ein Mikrofon spreche.

So lange die Software noch in diesem frühen Entwicklungsstadium ist, funktioniert sie allerdings nur in englischer Sprache, am besten mit amerikanischem Akzent. Ein Muttersprachler dürfte daher bessere Ergebnisse erzielen als ich. Die Unterstützung weiterer Sprachen soll später folgen.

Das System zu überlisten, wäre aufwendig

Mitgründer Alexandre de Brébisson hofft, die Technik von Lyrebird werde "die Interaktion mit Computern angenehmer machen, indem sie Computer menschlicher klingen lässt". In einer E-Mail an SPIEGEL ONLINE schreibt er, jeder könne dann "sein Navigationssystem mit einer beliebigen Stimme sprechen, oder Hörbücher von einer beliebigen Stimme vorlesen lassen". Die Technik solle außerdem Menschen, die zum Beispiel aufgrund einer ALS-Erkrankung nicht mehr selbst sprechen können, eine Stimme geben.

Die Versuchung aber, nicht nur sich selbst, sondern auch andere nachzuahmen, ist natürlich groß. So groß wie die Zahl der denkbaren Betrugsmaschen, von der Verbreitung gefälschter Zitate bis zum Überlisten sprachgesteuerter Autorisierungssysteme.

Auf die Frage, wie Lyrebird das verhindern will, antwortet de Brébisson: "Wir verwenden viel Zeit darauf, neue digitale Wasserzeichen zu entwickeln. Außerdem erlauben wir Nutzern nur, die eigene Stimme zu kopieren. Um das sicherzustellen, verlangen wir, dass sie von uns vorgegebene Sätze einsprechen, anstatt beliebiges Trainingsmaterial einzureichen. Mit einer Spracherkennung prüfen wir dann, ob die Aufnahmen dem entsprechen, was die Nutzer vorlesen sollten."

Wer das System überlisten und eine fremde Stimme imitieren wollen würde, müsste die teils sinnlosen Sätze - Stichwort "fliegender Tomatensalat" - aus gesammeltem Archivmaterial aufwendig zusammenschneiden, notfalls Silbe für Silbe.

Die Zukunft von "Fake News"

Dennoch wird Lyrebird oft als Musterbeispiel für die nächste Generation von "Fake News" genannt. Politikern wie Donald Trump mit Hilfe solcher Software haarsträubende Zitate unterzuschieben, dürfte mit entsprechendem Aufwand durchaus möglich sein.

Zudem könnte man den Ton mit einem ebenfalls gefälschten Video kombinieren. Anwendungen wie FakeApp  erlauben es mittlerweile, Gesichter in Videos zu ersetzen, ohne dass die Fälschung sofort auffällt. Derzeit wird so etwas vor allem verwendet, um Pornofilme mit den Gesichtern prominenter Schauspieler  zu produzieren.

Was ist die Wirklichkeit? Diese Frage werden sich Internetnutzer künftig häufiger stellen müssen.