Sprachsynthesizer Lyrebird Diese Software imitiert jede Stimme

Das kanadische Start-up Lyrebird hat eine Software entwickelt, die in wenigen Minuten lernt, beliebige Stimmen nachzumachen. Wir haben sie ausprobiert.

Screenshot der Lyrebird-Website

Screenshot der Lyrebird-Website

Von


"Was ist die Wirklichkeit? Wie definiert man das, Realität?", fragt der Computer mit meiner Stimme, wenn auch auf Englisch: "What is real? How do you define real?" Es ist ein Zitat aus dem Film "Matrix", das ich nie laut ausgesprochen habe. Und doch klingt das, was aus dem Computer vor mir kommt, ein bisschen wie ich.

Es ist die Software des kanadischen Start-ups Lyrebird, die meine Stimme imitiert und alles sagt, was ich ins Textfeld eintippe. Ihr Vorbild ist der Leierschwanz (Englisch: Lyrebird), der alle möglichen Geräusche täuschend echt nachahmen kann, menschliche Stimmen eingeschlossen. Sein einzigartiges Stimmorgan macht es möglich. Bei der gleichnamigen Firma übernimmt das ein sogenanntes tiefes neuronales Netzwerk, ein Werkzeug aus dem Bereich der künstlichen Intelligenz.

Das Training dauert nur ein paar Minuten

Trainiert mit Sprechproben Tausender Menschen, hat es gelernt, die für eine Stimme charakteristischen Merkmale zu erkennen. Für jeden neuen Sprecher, also zum Beispiel für mich, erstellt Lyrebird mit Hilfe dieser Technik einen individuellen Schlüssel, der "die DNA der Stimme" enthält, wie es das Unternehmen ausdrückt. Mit meinem Schlüssel wiederum kann Lyrebirds Software neue Sätze bilden, die ich so nie gesagt habe.

Im vergangenen Mai hatte das Start-up für Schlagzeilen gesorgt, als es erste Kostproben seines Könnens veröffentlichte. Der Stimmengenerator hatte unter anderem Donald Trump nachgemacht, in beeindruckender Qualität.

Seit einigen Tagen gibt es nun eine öffentliche Vorabversion der Software. Auf der Website von Lyrebird kann jeder sie ausprobieren. Das Ergebnis klingt zum Beispiel so:

Zum Vergleich habe ich die Sätze noch einmal selbst eingesprochen:

Könnte die Software jemanden täuschen, der meine Stimme kennt? Momentan sicherlich nicht, denn Atmungs- und andere Nebengeräusche, die beim Sprechen auftreten, kann Lyrebird nicht erzeugen. Unter anderem deshalb klingt mein elektronischer Doppelgänger wie ein Roboter. Außerdem trifft er zumindest in meinem Fall nicht ganz das richtige Timbre. Aber allzu weit weg ist er auch nicht davon, und von einer Betaversion sollte man kein perfektes Ergebnis erwarten.

Schon gar nicht nach so kurzem Training. Denn länger als eine Minute braucht das neuronale Netz nach Angaben der Firma nicht, um "einige der wichtigsten Merkmale" einer Stimme aufzugreifen. Mein Training ist nur wenig länger. Es umfasst nur 100 vorgegebene Trainingssätze wie "I usually like to eat flying tomato salad" ("Normalerweise esse ich gerne fliegenden Tomatensalat") , die ich in ein Mikrofon spreche.

So lange die Software noch in diesem frühen Entwicklungsstadium ist, funktioniert sie allerdings nur in englischer Sprache, am besten mit amerikanischem Akzent. Ein Muttersprachler dürfte daher bessere Ergebnisse erzielen als ich. Die Unterstützung weiterer Sprachen soll später folgen.

Das System zu überlisten, wäre aufwendig

Mitgründer Alexandre de Brébisson hofft, die Technik von Lyrebird werde "die Interaktion mit Computern angenehmer machen, indem sie Computer menschlicher klingen lässt". In einer E-Mail an SPIEGEL ONLINE schreibt er, jeder könne dann "sein Navigationssystem mit einer beliebigen Stimme sprechen, oder Hörbücher von einer beliebigen Stimme vorlesen lassen". Die Technik solle außerdem Menschen, die zum Beispiel aufgrund einer ALS-Erkrankung nicht mehr selbst sprechen können, eine Stimme geben.

Die Versuchung aber, nicht nur sich selbst, sondern auch andere nachzuahmen, ist natürlich groß. So groß wie die Zahl der denkbaren Betrugsmaschen, von der Verbreitung gefälschter Zitate bis zum Überlisten sprachgesteuerter Autorisierungssysteme.

Auf die Frage, wie Lyrebird das verhindern will, antwortet de Brébisson: "Wir verwenden viel Zeit darauf, neue digitale Wasserzeichen zu entwickeln. Außerdem erlauben wir Nutzern nur, die eigene Stimme zu kopieren. Um das sicherzustellen, verlangen wir, dass sie von uns vorgegebene Sätze einsprechen, anstatt beliebiges Trainingsmaterial einzureichen. Mit einer Spracherkennung prüfen wir dann, ob die Aufnahmen dem entsprechen, was die Nutzer vorlesen sollten."

Wer das System überlisten und eine fremde Stimme imitieren wollen würde, müsste die teils sinnlosen Sätze - Stichwort "fliegender Tomatensalat" - aus gesammeltem Archivmaterial aufwendig zusammenschneiden, notfalls Silbe für Silbe.

Die Zukunft von "Fake News"

Dennoch wird Lyrebird oft als Musterbeispiel für die nächste Generation von "Fake News" genannt. Politikern wie Donald Trump mit Hilfe solcher Software haarsträubende Zitate unterzuschieben, dürfte mit entsprechendem Aufwand durchaus möglich sein.

Zudem könnte man den Ton mit einem ebenfalls gefälschten Video kombinieren. Anwendungen wie FakeApp erlauben es mittlerweile, Gesichter in Videos zu ersetzen, ohne dass die Fälschung sofort auffällt. Derzeit wird so etwas vor allem verwendet, um Pornofilme mit den Gesichtern prominenter Schauspieler zu produzieren.

Was ist die Wirklichkeit? Diese Frage werden sich Internetnutzer künftig häufiger stellen müssen.



insgesamt 22 Beiträge
Alle Kommentare öffnen
Seite 1
bold_ 28.01.2018
1. Wenn das alles ist, was die SW kann,
dann kann ich das künstliche Produkt sofort enttarnen! Dazu brauche ich auch nicht die Originalstimme. Warum treten solche Firmen nicht erst dann an die Öffentlichkeit, wenn ihre Produkte >> 98% perfekt sind? Natürlich wollen sie so schnell wie möglich verkaufen, aber wer kauft schon halbfertige Produkte? Trotzdem: Diese Entwicklungen sind nicht mehr aufzuhalten, und in ein paar Jahren wird es bisher völlig unbekannte "Reden" geben von Churchill, Stalin oder Ebert. Von Ebert z.B. eine zur Situation der SPD bei den GROKO-Verhandlungen 2018.... --> Geschichte als Sudienfach wird begehrter sein als BWL!
quark2@mailinator.com 28.01.2018
2.
Erinnert mich an Faxgeräte ... Faxe gelten als "gerichtsfest", obwohl man sie einfach manipulieren kann. Jetzt können wir also Stimmen nachmachen. Wir können auch Personen in Fotos und Video manipulieren. Sicher ließe sich die Technik auch mit Unterschriften realisieren. Mit anderen Worten, wenn die Gerichte bereit wären, die Zeichen der Zeit zu akzeptieren, müßten sie hinnehmen, daß viele Beweise gar keine mehr sind, weder Fotos, noch Unterschriften, noch Stimmenaufzeichnungen. Aber wir glauben vermutlich einfach gern weiter an sowas, so wie ja Polizisten vor Gericht oft auch einfach institutionell geglaubt wird. Warum auch immer. Der Mensch baut sich gerade selbst eine Welt, die er nicht mehr durchschauen und schon gar nicht beherrschen kann - und dann gibt er die Kontrolle darüber in die Hände von Computern, die nicht mehr direkt Algorithmen unterliegen, sondern sich diese selbst stricken. Sehr wirksam und da wo sinnvoll angewandt auch sehr nützlich - aber dem sollten Grenzen gesetzt werden - international.
betonklotz 28.01.2018
3. Dann werden Nachrichtensprecher ja bald überflüssig
Eine weitere Rationalisierungswelle dürfte damit anrollen. Auch im Bereich Callcenter z.B. lassen sich Einsatzmöglichkeiten denken. Ich hatte schonmal die Idee des digitalen Laberkopps, der darauf programmiert wird, seinen Zielpersonen das vom jeweiligen Auftraggeber gewünschte einzureden. Die hier beschriebene Technik wäre dabei ein Kernelement der Outputseite. Das ergibt völlig neue Herrschaftsinstrumente. Und da Macht über andere für viele Personen das erstrebenswerteste Ziel überhaupt ist, wird es wohl so kommen. Und das diese Technik, wie auch schon im Artikel angesprochen für Betrugszenarien aller Art (z.B. Enkeltrick in digital) zum Einsatz kommen wird, nun wettet jemand dagegen?
Ringmodulation 28.01.2018
4. Verantwortungsloser Artikel
Spiegel Online lädt seine Leser ein, die Software auf der Webseite von Lyrebird auszuprobieren -- und versäumt es, davor zu warnen, dass man damit die Firma Lyrebird -- und alle, die Zugriff auf deren Systeme erlangen, etwa Hacker -- in die Lage versetzt, die Stimme des Testenden zu imitieren. Es ist nicht einmal ersichtlich, unter welche Gerichtsbarkeit eventueller Missbrauch fiele. Der Domainname ".ai" klingt nicht nach Kanada. Ansonsten sollte jeder mal nachdenken, was diese Entwicklung mit angeblichen "Telefonumfragen" und neuen Enkeltrick-Möglichkeiten zu tun haben könnte. Ob wohl ein Mark Salzberg schon eine Firma namens Voicebook gegründet hat?
gippertm 28.01.2018
5. Ernsthaft ... ?
Der Text des Artikels ist für mich absolut konträr zu dem, was die Beispiele zeigen. Ich denke, es gibt da weitaus bessere Beispiele für die Software dieses Unternehmens. Falls nicht, hätte sich seit meinem Amiga 500 offenbar nicht allzuviel getan
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.