SPIEGEL ONLINE

SPIEGEL ONLINE

23. Oktober 2012, 12:16 Uhr

Phonetiker

Sie bringen Siri das Zuhören bei

Von Annick Eimer

Ob sprechende Handys, bunte Bilder oder folgsame Maschinen - viele Firmen setzen auf Spracherkennung. Phonetiker sind deshalb nicht nur in der Wissenschaft, sondern auch bei Polizei oder Geheimdienst gefragte Experten. Manche von ihnen machen Zufallskunst, andere überführen Verbrecher.

Es könnte auch die Aufzeichnung eines Seismographen sein, der gerade das Zusammenstoßen zweier tektonischer Platten registriert hat. Eine Zickzacklinie, die an genau vier Stellen hektisch nach oben und unten ausbricht. Doch es sind keine Erdbeben, die da aufgezeichnet wurden, sondern Worte. "Willst Du mich heiraten?", steht da - nicht aufgeschrieben, sondern aufgezeichnet von einem digitalen Rekorder und als Oszillogramm auf eine Leinwand gebannt.

Der Fragende ist dafür nicht vor seiner Geliebten auf die Knie gegangen. Er hat in das Mikrofon an seinem Computer gesprochen. Aufgezeichnet wurde der Satz in Dortmund, bei dem findigen Jungunternehmer Saban Dasgin. "Artyourvoice" nennt er seine Geschäftsidee. "Ich hatte die ganze Zeit überlegt, was eigentlich noch persönlicher ist als ein Portrait", sagt er. Dann bekam sein Freund zum Geburtstag eine klassische Tonband-Kassette geschenkt, auf die seine Liebste amouröse Nachrichten gesprochen hatte. "Der war so begeistert von dem Geschenk, das musste ich einfach aufgreifen", sagt Dasgin. Und schwärmt vom Ergebnis: "Kein Bild ist wie das andere."

Tatsächlich ist die Stimme eines Menschen einzigartig. Ein biometrisches Merkmal, genau wie der Fingerabdruck, das Gesicht und die DNA. In einer aktuellen Studie haben Forscher zeigen können, dass sogar eineiige Zwillinge, deren DNA identisch ist, sich in der Stimme unterscheiden.

Verbrecher am Telefon

Dabei ist der Vorgang, Laute und Worte hervorzubringen, eigentlich ziemlich mechanisch. Er beginnt mit dem Einatmen. Die ausströmende Luft fließt durch die Stimmlippen, einem kleinen V-förmigen Gebilde im Kehlkopf. Die Stimmlippen schließen und öffnen sich ganz schnell, die Luft wird in Schwingungen versetzt, ein Ton entsteht. Die Einzigartigkeit jeder Stimme ist auf die unterschiedlichen physiologischen Merkmale zurückzuführen, wie etwa die Größe des Kehlkopfes oder die Länge der Stimmlippen. Auch die Beschaffenheit des Mundraums und die Zusammensetzung des Speichels entscheiden über den Klang der Stimme.

Eine Koryphäe auf dem Gebiet der Spracherkennung ist Hermann Künzel, 58. Viele Jahre leitete der Phonetiker beim Bundeskriminalamt die Abteilung für Sprecher-Erkennung. Bei Entführungen oder Erpressungen horchte er am Telefon mit. Wie alt ist der Täter, wo kommt er her, woran könnte man ihn erkennen? Egal, wie kurz der Satz ist, Künzel hört alle Feinheiten heraus. Ein zischender "Ffff"-Laut deutet zum Beispiel auf Zahnlücken hin, ein Schnalzgeräusch auf eine Zahnprothese. "Zu Fuß arbeiten" nennt Künzel diese Methode, die auch heute noch bei der Polizei genutzt wird. Häufig haben die Beamten nur eine einzelne Aufnahme zur Hand. "Da lässt sich nichts automatisieren", sagt Künzel.

Auch Wirtschaftsunternehmen nutzen die Einzigartigkeit der Stimme. Siri beispielsweise, das elektronische Mädchen für alles vom iPhone, würde ohne sie nicht funktionieren. Andere setzen auf Spracherkennung, um Geld zu sparen: Vor allem nach den Ferien sind etliche IT-Mitarbeiter damit beschäftigt, Passwörter zurückzusetzen, an die sich die Kollegen einfach nicht mehr erinnern können. Mit der Stimme als Schlüssel fällt dieses Problem weg. Das Prinzip ist einfach: Der Mitarbeiter muss einmalig ein paar Sätze oder Zahlen aufnehmen. Wenn er seinen Computer am Arbeitsplatz einschaltet, spricht er diese in ein Mikrofon und ein Spracherkennungssystem stellt automatisch fest, ob es sich tatsächlich um den Menschen handelt, der er vorgibt, zu sein.

Phonetiker arbeiten wie Genetiker

Hermann Künzel arbeitet heute nicht mehr als Ermittlungsbeamter, sondern forscht an der Universität Marburg. Unter anderem daran, was man Spracherkennungssystemen beibringen muss, damit sie den Menschen, der ins Mikrofon oder ins Telefon spricht, auch wirklich erkennen. Die Bilder, mit denen er arbeitet, sind komplexer als die von "Artyourvoice". Es sind dreidimensionale Spektrogramme, die neben der Zeit und der Lautstärke auch den Klang aufzeigen. "Denn auf den Klang kommt es an", sagt Künzel.

Der Phonetiker kooperiert mit einem spanischen Unternehmen, das zahlreiche Geheimdienste dieser Welt mit Spracherkennungssystemen ausstattet; Systeme, die es erlauben, Tausende Telefongespräche parallel abzuhören und mit vorhandenen Aufnahmen früherer Gespräche zu vergleichen. Künzel nutzt die Software, wenn er als Gutachter von Gerichten hinzugezogen wird. Wie gut sie funktioniert, zeigte sich jüngst.

Die Anklage gegen einen Nigerianer stützte sich auf ein aufgezeichnetes Gespräch, das der Angeklagte in einer der rund 500 Sprachen, die in dem afrikanischen Land gesprochen werden, geführt hatte. Der Angeklagte behauptete, die Sprache gar nicht zu sprechen. Künzel konnte jedoch anhand eines Telefonats, das der Mann mit einer deutschen Behörde in deutscher Sprache geführt hatte, nachweisen, dass die Stimme der beiden Telefonate mit einer sehr großen Wahrscheinlichkeit identisch ist. "Wie die Genetiker berechnen wir Wahrscheinlichkeiten", erklärt Künzel. "Wir sagen also, wie wahrscheinlich es ist, dass es auf der Welt einen zweiten Menschen gibt, der die gleiche Stimme hat."

Maschinen scheitern am Dialekt

Einen ähnlichen Job wie Hermann Künzel hat Jürgen Henke. Er leitet die Abteilung Spracherkennung am Fraunhofer Institut für Produktionstechnik und Automatisierung in Stuttgart und erforscht, wie man Maschinen per Sprachbefehl steuern kann. Interessant ist das vor allem für Industriebetriebe mit komplexen Maschinen: Wenn die Mitarbeite diese über die Sprache steuern könnten, hätten sie Hände und Blick frei für andere Dinge.

Damit das klappt, muss Henke die Unterschiedlichkeiten der Sprache herausfiltern. Das Problem: Anders als bei Siri, die nur einen Chef hat, dessen eigentümliche Sprechweise sie nach und nach erlernt und ihn so immer besser versteht, müssen Industrieanlagen von beliebig vielen Mitarbeitern bedient werden können - egal, ob sie einen breiten Dialekt sprechen, einen Sprachfehler haben oder zuweilen eine Erkältung. Noch meistert keine Spracherkennungssoftware diese Herausforderung.

Henke setzt auf Einfachheit. Die Maschinen, die er programmiert, müssen nur wenige Wörter beherrschen - Begriffe wie "Start" und "Stop". Auf die werden sie intensiv geschult. "Von einer sprachgesteuerten Kommandobrücke, wie man sie aus Science-Fiction-Filmen kennt, sind wir noch Jahre entfernt", sagt Henke und lacht. "Oder wollen sie ein Auto fahren, das nur in 95 Prozent der Fälle ihren Anweisungen folgt?"

URL:


© SPIEGEL ONLINE 2012
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung