Lebensecht Geklonte Stimmen für den Computer

Dank einer neuen Technik können Computer die Stimme jedes beliebigen Menschen imitieren. In wenigen Jahren sollen die Automaten sogar große Gefühle beherrschen.


Nicht erschrecken, wenn eines Tages der Bundeskanzler am Telefon ist und den Knusperfaktor gewisser Semmelbrösel anpreisen will. Das ist nur ein Trick. Hier spricht ein Computer.

Geklaute Laute: Wie der Rechner menschliche Stimmen nachahmt
DER SPIEGEL

Geklaute Laute: Wie der Rechner menschliche Stimmen nachahmt

Der US-Telefonkonzern AT&T hat eine Technik entwickelt, die jedes Menschen Stimme klont. Einzige Bedingung: Es gibt Aufnahmen davon. Die werden säuberlich in winzige Lautschnipsel zerlegt und dann nach Belieben neu verkettet. Es genügt, dem Computer einen Text einzugeben, und er liest ihn fließend vom Blatt ­ korrekt betont und mit sicherer, quasi lebenswarmer Stimme.

Der Zauber gelingt noch nicht makellos, aber viel besser als das blecherne Gequargel, mit dem sich bislang die Automaten zu Wort melden.

Die hergebrachten Methoden waren zu grob. Meist behalfen die Forscher sich mit einem begrenzten Vorrat ganzer Wörter, möglichst monoton aufgenommen ("Jetzt. Bitte. Rechts. Abbiegen."). Wenn das nicht reichte, gaben sie dem Computer ein paar hundert einfacher Doppellaute ("fl", "ug") ein, die er dann zusammenstückelte. Oder der Computer brachte seine Sprache gleich selber hervor: Das ging mit Hilfe von Sägezahngeneratoren und ausgetüftelten Filterprogrammen, und so klang es auch.

Sortiment von Redeklötzchen

Mit der neuen Technik, genannt "Natural Voices", hört die Maschine sich hie und da schon täuschend echt an. Der Aufwand ist aber noch groß (siehe Grafik). Der Mensch, der seine Stimme hergibt, muss im Labor von AT&T erscheinen und dort bis zu 40 Stunden lang reden.

Der Computer zerschnipselt die Aufnahmen in die kleinsten unterscheidbaren Laute. Von jedem "a" oder "ng" (wie in "Hunger") verstaut er tausenderlei Varianten in seiner Datenbank. Alle Lauteinheiten, Phoneme genannt, werden dann noch einmal in der Mitte zerteilt. Am Ende hat der Rechner ein Sortiment von Atomen der Rede, mit denen er alles sagen kann.

Das Englische kommt mit rund hundert solcher Halbphoneme aus. Aber nur wenn jedes Redeklötzchen in vielen tausend Exemplaren vorliegt, findet der Computer zu jeder Satzmelodie die passende Lautfolge. Dazu kalkuliert er von jedem Halbphonem aus ein paar Millionen möglicher Verkettungen. Passen Tonhöhe und Länge? Fügt das Stimmpartikel sich nahtlos und ohne Knacken zwischen die Nachbarlaute?

Das menschliche Ohr hört fast jeden Defekt, und kein Laut klingt zweimal gleich. Es kommt darauf an, welcher Laut ihm vorausgeht, welcher folgt und wo im Satz das ganze Wort steht. Auch die Grammatik der Rede muss der Rechner wenigstens grob erraten, sonst pfuscht er beim Betonen. Wenn alles gut geht, hat er am Ende eine Art Partitur des gewünschten Satzes beisammen und kann die benötigten Stimmschnipsel zusammenklauben.

Fertigstimmen von der Stange

Die Firma AT&T verspricht sich vielerlei Anwendungen für den künstlichen Bauchredner: von telefonischen Auskunftdiensten bis hin zu Navigationssystemen im Auto. Die Software kann E-Mails am Telefon vorlesen oder Nachrichten aus dem Internet. Wird sie am PC eingesetzt, stehen bald animierte Köpfe zur Verfügung, die der Telefonkonzern ebenfalls in Entwicklung hat. Sie bewegen zur Rede den Mund und schneiden die passenden Gesichter.

Mehrere tausend Dollar kostet eine Kunststimme. Der Kunde bringt entweder einen eigenen Sprecher mit ins Labor und lässt sich dessen Stimme klonen. Oder er nimmt eine der bislang drei Fertigstimmen, die AT&T von der Stange verkauft.

Drei Schauspieler ­ zwei Männer, eine Frau ­ dienten als Stimmspender für das Klonprojekt. Nun können sie zusehen, wie die eigene Stimme in alle Welt multipliziert wird. Fremde Menschen werden sie besitzen. Wo wird sie überall zu reden beginnen? Was wird sie sagen?

Prominente haben Grund zur Sorge vor den Ideen der Werbeleute. Verstorbene Berühmtheiten können sich ohnehin nicht mehr wehren. Es ist nur eine Frage der Zeit, bis jemand Aufnahmen von Marilyn Monroe in die digitale Klonfabrik einspeist.

Säuseln auf Kommando

Die Techniker von AT&T wollen unterdessen zügig ihr eigenes Sortiment von Klonen erweitern. "Eine ganze Stimmenfamilie" sei gerade in Gründung, sagt der deutsche Forscher Juergen Schroeter, der bei AT&T das Labor für Sprachsynthese leitet. Als Nächstes auf dem Programm: ein Kind und eine alte Frau vom Großmuttertyp.

Damit werden Hörbücher möglich, die sich selber vorlesen mit verteilten Rollen. "In zwei, drei Jahren", schätzt Schroeter, "ist die Kunststimme dafür gut genug." Er peilt schon die nächste Stufe an: das Sprechen mit Gefühl.

Der Computer soll nicht nur ungerührt wie ein Nachrichtensprecher seinen Text aufsagen. Es wäre aber viel zu mühsam, ihn zu füttern mit jeweils 40 Stunden zorniger, fröhlicher oder furchtsamer Rede.

Die Forscher suchen deshalb nach akustischen Übersetzungsregeln, mit denen sich ruhige Klangfolgen automatisch in erregte verwandeln lassen. Dann genügt ein Kommando, und der Computer fängt an zu schimpfen oder wahlweise huldreich zu säuseln.

MANFRED DWORSCHAK



© SPIEGEL ONLINE 2001
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.