• Drucken
  • Senden
  • Nutzungsrechte
 

Phonetiker Sie bringen Siri das Zuhören bei

Spracherkennung: Jobs für Zuhörer Fotos
Corbis

Ob sprechende Handys, bunte Bilder oder folgsame Maschinen - viele Firmen setzen auf Spracherkennung. Phonetiker sind deshalb nicht nur in der Wissenschaft, sondern auch bei Polizei oder Geheimdienst gefragte Experten. Manche von ihnen machen Zufallskunst, andere überführen Verbrecher.

Es könnte auch die Aufzeichnung eines Seismographen sein, der gerade das Zusammenstoßen zweier tektonischer Platten registriert hat. Eine Zickzacklinie, die an genau vier Stellen hektisch nach oben und unten ausbricht. Doch es sind keine Erdbeben, die da aufgezeichnet wurden, sondern Worte. "Willst Du mich heiraten?", steht da - nicht aufgeschrieben, sondern aufgezeichnet von einem digitalen Rekorder und als Oszillogramm auf eine Leinwand gebannt.

Der Fragende ist dafür nicht vor seiner Geliebten auf die Knie gegangen. Er hat in das Mikrofon an seinem Computer gesprochen. Aufgezeichnet wurde der Satz in Dortmund, bei dem findigen Jungunternehmer Saban Dasgin. "Artyourvoice" nennt er seine Geschäftsidee. "Ich hatte die ganze Zeit überlegt, was eigentlich noch persönlicher ist als ein Portrait", sagt er. Dann bekam sein Freund zum Geburtstag eine klassische Tonband-Kassette geschenkt, auf die seine Liebste amouröse Nachrichten gesprochen hatte. "Der war so begeistert von dem Geschenk, das musste ich einfach aufgreifen", sagt Dasgin. Und schwärmt vom Ergebnis: "Kein Bild ist wie das andere."

Tatsächlich ist die Stimme eines Menschen einzigartig. Ein biometrisches Merkmal, genau wie der Fingerabdruck, das Gesicht und die DNA. In einer aktuellen Studie haben Forscher zeigen können, dass sogar eineiige Zwillinge, deren DNA identisch ist, sich in der Stimme unterscheiden.

Verbrecher am Telefon

Dabei ist der Vorgang, Laute und Worte hervorzubringen, eigentlich ziemlich mechanisch. Er beginnt mit dem Einatmen. Die ausströmende Luft fließt durch die Stimmlippen, einem kleinen V-förmigen Gebilde im Kehlkopf. Die Stimmlippen schließen und öffnen sich ganz schnell, die Luft wird in Schwingungen versetzt, ein Ton entsteht. Die Einzigartigkeit jeder Stimme ist auf die unterschiedlichen physiologischen Merkmale zurückzuführen, wie etwa die Größe des Kehlkopfes oder die Länge der Stimmlippen. Auch die Beschaffenheit des Mundraums und die Zusammensetzung des Speichels entscheiden über den Klang der Stimme.

Eine Koryphäe auf dem Gebiet der Spracherkennung ist Hermann Künzel, 58. Viele Jahre leitete der Phonetiker beim Bundeskriminalamt die Abteilung für Sprecher-Erkennung. Bei Entführungen oder Erpressungen horchte er am Telefon mit. Wie alt ist der Täter, wo kommt er her, woran könnte man ihn erkennen? Egal, wie kurz der Satz ist, Künzel hört alle Feinheiten heraus. Ein zischender "Ffff"-Laut deutet zum Beispiel auf Zahnlücken hin, ein Schnalzgeräusch auf eine Zahnprothese. "Zu Fuß arbeiten" nennt Künzel diese Methode, die auch heute noch bei der Polizei genutzt wird. Häufig haben die Beamten nur eine einzelne Aufnahme zur Hand. "Da lässt sich nichts automatisieren", sagt Künzel.

Auch Wirtschaftsunternehmen nutzen die Einzigartigkeit der Stimme. Siri beispielsweise, das elektronische Mädchen für alles vom iPhone, würde ohne sie nicht funktionieren. Andere setzen auf Spracherkennung, um Geld zu sparen: Vor allem nach den Ferien sind etliche IT-Mitarbeiter damit beschäftigt, Passwörter zurückzusetzen, an die sich die Kollegen einfach nicht mehr erinnern können. Mit der Stimme als Schlüssel fällt dieses Problem weg. Das Prinzip ist einfach: Der Mitarbeiter muss einmalig ein paar Sätze oder Zahlen aufnehmen. Wenn er seinen Computer am Arbeitsplatz einschaltet, spricht er diese in ein Mikrofon und ein Spracherkennungssystem stellt automatisch fest, ob es sich tatsächlich um den Menschen handelt, der er vorgibt, zu sein.

Phonetiker arbeiten wie Genetiker

Hermann Künzel arbeitet heute nicht mehr als Ermittlungsbeamter, sondern forscht an der Universität Marburg. Unter anderem daran, was man Spracherkennungssystemen beibringen muss, damit sie den Menschen, der ins Mikrofon oder ins Telefon spricht, auch wirklich erkennen. Die Bilder, mit denen er arbeitet, sind komplexer als die von "Artyourvoice". Es sind dreidimensionale Spektrogramme, die neben der Zeit und der Lautstärke auch den Klang aufzeigen. "Denn auf den Klang kommt es an", sagt Künzel.

Der Phonetiker kooperiert mit einem spanischen Unternehmen, das zahlreiche Geheimdienste dieser Welt mit Spracherkennungssystemen ausstattet; Systeme, die es erlauben, Tausende Telefongespräche parallel abzuhören und mit vorhandenen Aufnahmen früherer Gespräche zu vergleichen. Künzel nutzt die Software, wenn er als Gutachter von Gerichten hinzugezogen wird. Wie gut sie funktioniert, zeigte sich jüngst.

Die Anklage gegen einen Nigerianer stützte sich auf ein aufgezeichnetes Gespräch, das der Angeklagte in einer der rund 500 Sprachen, die in dem afrikanischen Land gesprochen werden, geführt hatte. Der Angeklagte behauptete, die Sprache gar nicht zu sprechen. Künzel konnte jedoch anhand eines Telefonats, das der Mann mit einer deutschen Behörde in deutscher Sprache geführt hatte, nachweisen, dass die Stimme der beiden Telefonate mit einer sehr großen Wahrscheinlichkeit identisch ist. "Wie die Genetiker berechnen wir Wahrscheinlichkeiten", erklärt Künzel. "Wir sagen also, wie wahrscheinlich es ist, dass es auf der Welt einen zweiten Menschen gibt, der die gleiche Stimme hat."

Maschinen scheitern am Dialekt

Einen ähnlichen Job wie Hermann Künzel hat Jürgen Henke. Er leitet die Abteilung Spracherkennung am Fraunhofer Institut für Produktionstechnik und Automatisierung in Stuttgart und erforscht, wie man Maschinen per Sprachbefehl steuern kann. Interessant ist das vor allem für Industriebetriebe mit komplexen Maschinen: Wenn die Mitarbeite diese über die Sprache steuern könnten, hätten sie Hände und Blick frei für andere Dinge.

Damit das klappt, muss Henke die Unterschiedlichkeiten der Sprache herausfiltern. Das Problem: Anders als bei Siri, die nur einen Chef hat, dessen eigentümliche Sprechweise sie nach und nach erlernt und ihn so immer besser versteht, müssen Industrieanlagen von beliebig vielen Mitarbeitern bedient werden können - egal, ob sie einen breiten Dialekt sprechen, einen Sprachfehler haben oder zuweilen eine Erkältung. Noch meistert keine Spracherkennungssoftware diese Herausforderung.

Henke setzt auf Einfachheit. Die Maschinen, die er programmiert, müssen nur wenige Wörter beherrschen - Begriffe wie "Start" und "Stop". Auf die werden sie intensiv geschult. "Von einer sprachgesteuerten Kommandobrücke, wie man sie aus Science-Fiction-Filmen kennt, sind wir noch Jahre entfernt", sagt Henke und lacht. "Oder wollen sie ein Auto fahren, das nur in 95 Prozent der Fälle ihren Anweisungen folgt?"

  • David Einsiedler
    KarriereSPIEGEL-Autorin Annick Eimer (Jahrgang  1975) ist freie Journalistin in Hamburg.

Diesen Artikel...
Aus Datenschutzgründen wird Ihre IP-Adresse nur dann gespeichert, wenn Sie angemeldeter und eingeloggter Facebook-Nutzer sind. Wenn Sie mehr zum Thema Datenschutz wissen wollen, klicken Sie auf das i.

Auf anderen Social Networks teilen

  • Xing
  • LinkedIn
  • Tumblr
  • studiVZ meinVZ schülerVZ
  • deli.cio.us
  • Digg
  • reddit
Forum - Diskutieren Sie über diesen Artikel
insgesamt 5 Beiträge
Alle Kommentare öffnen
    Seite 1    
1. Ich lach' mich scheckig!
RobinB 23.10.2012
"Wie die Genetiker berechnen wir Wahrscheinlichkeiten", erklärt Künzel. "Wir sagen also, wie wahrscheinlich es ist, dass es auf der Welt einen zweiten Menschen gibt, der die gleiche Stimme hat." Einerseits muss man "zu Fuß arbeiten", weil "da lässt sich nichts automatisieren". Andererseits nutzen wir eine Software, die [I]angeblich[\I] ähnlich präzise ist, wie die Genanalyse. Das ist natürlich ziemlicher Quatsch, schon weil es ein innerer Widerspruch in den Aussagen des Herrn Künzel ist. Und die Identität eines Sprechers in zwei verschiedenen (!) Sprachen aufgrund eines schmalbandigen Telefonsignals zu verifizieren, dass ist (außer mit sehr geringer Konfidenz) heute allerhöchstens in Ausnahmefällen möglich, z.B. wenn ganz eklatante individuelle Auffälligkeiten vorliegen.
2. Sprechererkennung
gordito255 23.10.2012
Zitat von sysopOb sprechende Handys, bunte Bilder oder schlaue Maschinen - viele Firmen setzen auf Spracherkennung. Phonetiker sind deshalb nicht nur in der Wissenschaft, sondern auch bei Polizei oder Geheimdienst gefragte Experten. Manche von ihnen machen Zufallskunst, andere überführen Verbrecher. Spracherkennung: Phonetiker ist ein Zukunftsjob - SPIEGEL ONLINE (http://www.spiegel.de/karriere/berufsleben/spracherkennung-phonetiker-ist-ein-zukunftsjob-a-862665.html)
Eigentlich müsste es Sprechererkennung heissen und nicht Spracherkennung. Spracherkennung würde auch den Inhalt des Gesprochenen einschließen was z.Z. ja noch nicht möglich ist.
3. Phonetik???
ramazotto 23.10.2012
So ein Quatsch! Ich habe im Bereich automatische Spracherkennung promoviert, Phonetik war dabei nur ein ganz kleines Rädchen im Getriebe ;)
4. Promoviert?
xenoxx 24.10.2012
Zitat von ramazottoSo ein Quatsch! Ich habe im Bereich automatische Spracherkennung promoviert, Phonetik war dabei nur ein ganz kleines Rädchen im Getriebe ;)
Aber den Bereich deutscher Grammatik haben sie offensichtlich verschlafen. Bei Deklination und Interpunktion sollten bei einem promovierten Foristen schon strengere Maßstäbe gelten.
5. Wenn alles so einfach wäre...
aiwonnie 24.10.2012
Äußerst unprofessionell, den Beitrag mit der Arbeit eines Künstlers anzufangen, die zwar ganz nett sein mag, aber mit Phonetik nichts zu tun hat. Jeder kann sich ein entsprechendes Programm herunterladen und seine Stimme aufnehmen... Des Weiteren ist phonetisches Wissen für Sprechererkennung durchaus nützlich, auch wenn manche Informatiker das nicht wahrhaben wollen. Dialekterkennung im Speziellen braucht Parameter, die von Experten entweder erstellt, oder für die sie zumindest als Berater herangezogen werden (sollten). Zur forensischen Phonetik, dem Bereich, in dem ich gerade promoviere: DNA-Analyse und Fingerabdruckvergleich liefern meines Wissens eine Wahrscheinlichkeit von über 99%. Das kann man von forensischen Sprechervergleichen nicht sagen. Schön wärs! Die menschliche Sprache ist viel zu komplex, um aus einem Sprachsignal, das in der Realität oft sehr kurz und von schlechter Qualität ist, Rückschlüsse auf den Sprecher ziehen zu können, die sich jenseits jeden Zweifels befinden. Natürlich werden Kriminelle auf Grund solcher Analysen überführt, aber nur, weil genug Kontextwissen vorhanden ist, oder stimmliche Merkmale, die in der Bevölkerung selten genug vorkommen. Oft ist eine solche Analyse einfach das Tüpfelchen auf dem i, das zur Verurteilung führt. Das Problem bei Sprechervergleichen ist der Kontext; hierzu ein Beispiel: Studien haben gezeigt, dass Stimmhöhen von bis zu 1000Hz (bei Männern sind 100-200Hz Durchschnitt) möglich sind, wenn der Sprecher schreit. Das wirkt sich auch auf andere Merkmale aus, und führt dazu, dass Identifizierung leider nicht so einfach ist, wie es hier dargestellt wird. Natürlich gibt es Automatismen, die man nutzen kann, aber die ganze Arbeit nehmen diese nicht ab. Die Hauptarbeit findet immer noch manuell statt. Das klingt natürlich deprimierender, als es ist. Aber so einfach wie bei CSI ist es leider auch nicht.
Alle Kommentare öffnen
    Seite 1    
News verfolgen

HilfeLassen Sie sich mit kostenlosen Diensten auf dem Laufenden halten:

alles aus der Rubrik KarriereSPIEGEL
RSS
alles aus der Rubrik Berufsleben
RSS
alles zum Thema Hingehört - KarriereSPIEGEL
RSS

© SPIEGEL ONLINE 2012
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH

SPIEGEL ONLINE Schließen



Verwandte Themen

Fotostrecke
Büroleben: Elf Sätze für das Phrasenschwein
Die schlimmsten Chef-Sprüche (7)

Zitate starten: Klicken Sie auf den Pfeil




Social Networks