Spracherkennung auf Smartphones Funktioniert Sprechen so gut wie Tippen?

Auf iPhones und Android-Handys kann man Texte diktieren, statt sie einzutippen. Aber wie gut erkennen die Systeme Gequassel aus der Sesamstraße, die Kanzlerin und einen Rapper? Wir haben es ausprobiert.

Spracherkennung und Sprachbedienung Siri auf einem iPhone
DPA

Spracherkennung und Sprachbedienung Siri auf einem iPhone

Von


Die Jahre der Tastatur sind gezählt, jedenfalls für einige Aufgaben an Smartphone und PC. Sprachassistenten reagieren auf Zuruf. Wer deutlich spricht, kann mit kostenloser Diktier-Software sogar lange Texte erstellen.

Schwierig wird's beim Transkribieren von Worten, die eigentlich nicht zum Mitschreiben gedacht waren. Wir haben die Spracherkennungstechnik von Google, Apple und Nuance in drei solchen Situationen getestet.

Bei Google und Apple gibt es Spracherkennung gratis, sie ist Bestandteil der Mobilbetriebssysteme iOS und Android. Die Diktier-App Dragon Anywhere von Nuance kostet zwölf Euro pro Monat. Wer den Apps beim Arbeiten zusieht, lernt viel über ihre Grenzen - und ihre Fähigkeiten.

Bitte sprechen Sie deutlich

Unser erster Testfall: die Neujahrsansprache der Bundeskanzlerin. Damit kommen die drei getesteten Systeme ganz gut zurecht. Das liegt an den optimalen Bedingungen der Aufnahme: Spracherkennung klappt grundsätzlich am besten bei einer natürlichen Stimmlage, Hochdeutsch und einem ruhigen Hintergrund - so erklärt es Dorothea Kolossa von der Ruhr-Universität Bochum. Die Professorin forscht dort am Institut für Kommunikationsakustik über Spracherkennung und Signalverarbeitung.

"Hallige Räume sind für Spracherkennung aber ein Problem, etwa Bahnhöfe oder Kirchen", sagt Kolossa. Durch den Hall würden einige Eigenschaften des Gesprochenen stark verändert, weil die Worte lange nachklingen. Auch Lärm oder andere Sprecher im Hintergrund könnten stören. Weniger problematisch sind gleichmäßige Geräusche, die sich herausrechnen lassen, beispielsweise rauschender Verkehr beim Autofahren.

Mag Kollegah "kundige Geometrie"?

Bei unserem zweiten Test haben wir den Spracherkennungs-Apps eine besonders schwere Aufgabe vorgesetzt: Sprechgesang. Weil Musikbegleitung die Programme überfordern kann, diente als Vorlage eine A-capella-Kostprobe des deutschen Rappers Kollegah.

Die drei Apps erkennen dabei viel, aber nicht alles. Was diesen Test so schwer macht, ist wohl weniger Kollegahs Geschwindigkeit als seine Wortwahl. Kollegah spricht eine Sprache voller Anglizismen und Kunstworte. Darauf lässt sich eine Spracherkennung nur schwer trainieren.

Stark vereinfacht lässt sich die Funktion der meisten modernen Spracherkennungssysteme so erklären: Sie erkennen Laute, die sie zu Worten und Sätzen zusammensetzen. "Damit aus den Lauten Worte werden, ermittelt ein Suchalgorithmus, mit welcher Wahrscheinlichkeit welche Laute aufeinanderfolgen", sagt Dorothea Kolossa.

Dabei helfen phonetische Wörterbücher und riesige Datenmengen aus bereits korrekt transkribierten Aufnahmen. In einem zweiten Schritt prüfen die Programme, mit welcher Wahrscheinlichkeit welche Worte aufeinander folgen. Um hier zu einer guten Treffsicherheit zu kommen, werden ihre Datenbanken mit gigantischen Mengen korrekt transkribierter Texte gefüttert.

"Dank neuronaler Netze können moderne Programme viel besser aus großen Datenmengen lernen als noch vor wenigen Jahren", erklärt Kolossa. Neuronale Netze seien eine Revolution in der Spracherkennung. "Ich rechne damit", sagt Kolossa, "dass sich in den nächsten drei Jahren Systeme verbreiten, die gesprochene Sprache in vielen Situationen besser erkennen als der Mensch."

Bei Gequassel ist die Software hilflos

Der dritte Test stellt die Apps vor eine Aufgabe, die Menschen leicht fällt: Es ist ein Dialog von Puppen aus der Kindersendung "Sesamstraße". Im Videoclip trifft ein feiner Herr mit Schnurrbart das schusselige Monster Grobi.

Der krächzende Grobi bringt die Spracherkennungssysteme aus dem Konzept. Auf eine unnatürliche Stimmlage wie die von Grobi sind sie offenbar kaum vorbereitet. Wenn sich die Puppen in einer späteren Szene gegenseitig ins Wort fallen, erkennt die Software gar nichts mehr: zu viel Gequassel.

Menschen, gerade wenn sie ein gutes Gehör haben, können sich in solchen Situationen deutlich besser auf eine Person konzentrieren, erklärt Kolossa. "Schließlich können sie fürs Verstehen noch Mimik, Gestik und Lippenbewegungen zur Hilfe nehmen." Auf solche Informationen kann eine Spracherkennungssoftware nicht zurückgreifen.

iOS und Dragon Anywhere haben die Nase vorn

Vorträge meistern alle getesteten Systeme gut. Für lebhafte Gespräche und ungewöhnliche Formulierungen sind sie noch nicht ausgefeilt genug. Unter erschwerten Bedingungen haben sich die Systeme von Apple und Nuance am besten geschlagen. Googles Spracherkennung hat einfach mit dem Transkribieren aufgehört, wenn es ihr zu verwirrend wurde.

Fotostrecke

20  Bilder
Die besten Siri-Sprüche: "Miezekatze, Miezekatze, Miezekatze"

Ohne Internetverbindung funktionieren die getesteten Programme übrigens nicht. Die Aufnahmen werden auf den Servern der Anbieter verarbeitet. Eine Alternative sind kostenpflichtige Programme wie etwa Dragon Naturally Speaking. Die Software arbeitet lokal auf dem PC, kostet für Privatanwender ab 99 Euro. Wer Spracherkennung lieber gratis und auf dem Smartphone nutzen möchte, muss also darauf hoffen, dass die kostenlosen Systeme noch besser werden.

insgesamt 38 Beiträge
Alle Kommentare öffnen
Seite 1
doktorfeinfinger 09.04.2017
1. In 5 Jahren
werden viele Berufe wie (Fremdsprachen)sekretärin, Dolmetscher, Lektoren neben all den anderen Berufen die der Automatisierung 4.0 zum Opfer fallen, nicht mehr existieren. Auch diesen Text habe ich mit Siri fehlerfrei direkt ins Smartphone diktiert.
HubertusR 09.04.2017
2. Situationen aus dem wahren Leben, ...
Liebe Tester, ich weiß ja nicht, was zu Hause oder bei Euch in der Redaktion so abgeht. Eine Neujahrsansprache, ein Rap-Gesang und die Sesamstraße sind jedenfalls für mein Privat- und Berufsleben meist nicht typisch. Wie wäre es denn gewesen, als Test mal eine E-Mail oder eine Whatsapp-Nachricht zu diktieren? Da hätte dann die Google Spracherkennung auch nicht zu Recht wegen Blödsinns gestreikt.
Marvel Master 09.04.2017
3. Ganz gut
Hallo, wenn man langsam und deutlich die Spracherkennung benutzt, dann ist die Erfolgsrate bei über 95 Prozent. Das ist schon bemerkenswert. Das war jedenfalls 1995 noch völlig undenkbar. Da musste man Spezialsoftware erst tagelang trainieren, bis sie auf dem Niveau von Siri und Co waren. Von daher schon beeindruckend was die großen IT Konzerne da entwickelt haben. Ich gehe daher davon aus, dass man in den nächsten 10 bis 20 Jahren Systeme haben wird, die so gut sind, wie der Mensch selber. Alles eine Frage der Zeit. Sehr spannend jedenfalls. VG
Afrojüdischer_Sozi-Sinti 09.04.2017
4. Schön und gut
Aber solange es keine öffentliche Infrastruktur gibt in der die Wahlfreiheit von Anbietern solcher Technologien gewährleistet wird, wird langfristig jeglicher potentielle Vorteil den sie bietet verspielt. Das gesamte Potential des informationstechnischen Fortschritts fällt - wie die Globalisierung - einer unzeitgemäßen und nachweisbar fatalen Wirtschaftsideologie und den von ihr profitierenden Vertretern zum Opfer. Insofern ist es einerseits erfreulich wenn die Technik sich weiterentwickelt, was aber durch die mangelnde gesellschaftliche Weiterentwicklung - von der Politik bis zu jedem einzelnen - völlig relativiert wird. Um konkreter auf die in diesem Artikel beschriebene Funktion einzugehen: Die Motivation hinter der Weiterentwicklung von Spracherkennung ist nicht alleine die Steigerung von Annehmlichkeit oder Effizienz im Umgang mit Informationen, sondern auch die verlockenden, immensen Möglichkeiten der automatisierten Datenerfassung und Auswertung, sprich Überwachung und den sich daraus ergebenden Möglichkeiten der Kontrolle. Man sollte immer darauf achten wer am Ende Zugriff darauf haben könnte, hat oder haben wird. Leider ist das den meisten Leuten völlig egal und andere Dinge erscheinen wichtiger. Dabei handelt es sich um eines der wichtigsten Probleme unserer Zeit welches, wenn es nicht ernst genommen wird, alles zunichte machen kann was anderswo möglicherweise noch erreicht wird.
joey2312 09.04.2017
5. unrealistisches Testsetting
Wie schon von einigen Foristen angemerkt ist das Testsetting ziemlich unrealistisch. Ich verwende Googles Android Auto, um WhatsApp-Nachrichten per Diktierfunktion zu versenden und habe selbst bei umgangssprachlichen Wendungen oder Spitznamen fast nie Korrekturbedarf. Ich muss dafür auch nicht​besonders gekünstelt oder langsam sprechen, ganz im Gegenteil: Am besten funktioniert die Erkennung bei ungekünsteltem Sprechen in normalem Tempo.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2017
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.