Spracherkennung auf Smartphones Funktioniert Sprechen so gut wie Tippen?

Auf iPhones und Android-Handys kann man Texte diktieren, statt sie einzutippen. Aber wie gut erkennen die Systeme Gequassel aus der Sesamstraße, die Kanzlerin und einen Rapper? Wir haben es ausprobiert.
Spracherkennung und Sprachbedienung Siri auf einem iPhone

Spracherkennung und Sprachbedienung Siri auf einem iPhone

Foto: Sven Hoppe/ picture alliance / dpa

Die Jahre der Tastatur sind gezählt, jedenfalls für einige Aufgaben an Smartphone und PC. Sprachassistenten reagieren auf Zuruf. Wer deutlich spricht, kann mit kostenloser Diktier-Software sogar lange Texte erstellen.

Schwierig wird's beim Transkribieren von Worten, die eigentlich nicht zum Mitschreiben gedacht waren. Wir haben die Spracherkennungstechnik von Google, Apple und Nuance  in drei solchen Situationen getestet.

Bei Google und Apple gibt es Spracherkennung gratis, sie ist Bestandteil der Mobilbetriebssysteme iOS und Android. Die Diktier-App Dragon Anywhere von Nuance kostet zwölf Euro pro Monat. Wer den Apps beim Arbeiten zusieht, lernt viel über ihre Grenzen - und ihre Fähigkeiten.

Bitte sprechen Sie deutlich

Unser erster Testfall: die Neujahrsansprache der Bundeskanzlerin. Damit kommen die drei getesteten Systeme ganz gut zurecht. Das liegt an den optimalen Bedingungen der Aufnahme: Spracherkennung klappt grundsätzlich am besten bei einer natürlichen Stimmlage, Hochdeutsch und einem ruhigen Hintergrund - so erklärt es Dorothea Kolossa von der Ruhr-Universität Bochum. Die Professorin forscht dort am Institut für Kommunikationsakustik über Spracherkennung und Signalverarbeitung.

Fotostrecke

Spracherkennungs-Apps im Test: Test 1: Merkels Neujahrsansprache

Foto: YouTube/ Deutsche Welle

"Hallige Räume sind für Spracherkennung aber ein Problem, etwa Bahnhöfe oder Kirchen", sagt Kolossa. Durch den Hall würden einige Eigenschaften des Gesprochenen stark verändert, weil die Worte lange nachklingen. Auch Lärm oder andere Sprecher im Hintergrund könnten stören. Weniger problematisch sind gleichmäßige Geräusche, die sich herausrechnen lassen, beispielsweise rauschender Verkehr beim Autofahren.

Mag Kollegah "kundige Geometrie"?

Bei unserem zweiten Test haben wir den Spracherkennungs-Apps eine besonders schwere Aufgabe vorgesetzt: Sprechgesang. Weil Musikbegleitung die Programme überfordern kann, diente als Vorlage eine A-capella-Kostprobe des deutschen Rappers Kollegah.

Die drei Apps erkennen dabei viel, aber nicht alles. Was diesen Test so schwer macht, ist wohl weniger Kollegahs Geschwindigkeit als seine Wortwahl. Kollegah spricht eine Sprache voller Anglizismen und Kunstworte. Darauf lässt sich eine Spracherkennung nur schwer trainieren.

Fotostrecke

Spracherkennungs-Apps im Test: Test 2: Kollegah

Foto: YouTube/ 16 Bars TV

Stark vereinfacht lässt sich die Funktion der meisten modernen Spracherkennungssysteme so erklären: Sie erkennen Laute, die sie zu Worten und Sätzen zusammensetzen. "Damit aus den Lauten Worte werden, ermittelt ein Suchalgorithmus, mit welcher Wahrscheinlichkeit welche Laute aufeinanderfolgen", sagt Dorothea Kolossa.

Dabei helfen phonetische Wörterbücher und riesige Datenmengen aus bereits korrekt transkribierten Aufnahmen. In einem zweiten Schritt prüfen die Programme, mit welcher Wahrscheinlichkeit welche Worte aufeinander folgen. Um hier zu einer guten Treffsicherheit zu kommen, werden ihre Datenbanken mit gigantischen Mengen korrekt transkribierter Texte gefüttert.

"Dank neuronaler Netze können moderne Programme viel besser aus großen Datenmengen lernen als noch vor wenigen Jahren", erklärt Kolossa. Neuronale Netze seien eine Revolution in der Spracherkennung. "Ich rechne damit", sagt Kolossa, "dass sich in den nächsten drei Jahren Systeme verbreiten, die gesprochene Sprache in vielen Situationen besser erkennen als der Mensch."

Bei Gequassel ist die Software hilflos

Der dritte Test stellt die Apps vor eine Aufgabe, die Menschen leicht fällt: Es ist ein Dialog von Puppen aus der Kindersendung "Sesamstraße". Im Videoclip  trifft ein feiner Herr mit Schnurrbart das schusselige Monster Grobi.

Fotostrecke

Spracherkennungs-Apps im Test: Test 3: Sesamstraße

Foto: YouTube/ Sesamstraße

Der krächzende Grobi bringt die Spracherkennungssysteme aus dem Konzept. Auf eine unnatürliche Stimmlage wie die von Grobi sind sie offenbar kaum vorbereitet. Wenn sich die Puppen in einer späteren Szene gegenseitig ins Wort fallen, erkennt die Software gar nichts mehr: zu viel Gequassel.

Menschen, gerade wenn sie ein gutes Gehör haben, können sich in solchen Situationen deutlich besser auf eine Person konzentrieren, erklärt Kolossa. "Schließlich können sie fürs Verstehen noch Mimik, Gestik und Lippenbewegungen zur Hilfe nehmen." Auf solche Informationen kann eine Spracherkennungssoftware nicht zurückgreifen.

iOS und Dragon Anywhere haben die Nase vorn

Vorträge meistern alle getesteten Systeme gut. Für lebhafte Gespräche und ungewöhnliche Formulierungen sind sie noch nicht ausgefeilt genug. Unter erschwerten Bedingungen haben sich die Systeme von Apple und Nuance am besten geschlagen. Googles Spracherkennung hat einfach mit dem Transkribieren aufgehört, wenn es ihr zu verwirrend wurde.

Fotostrecke

Die besten Siri-Sprüche: "Miezekatze, Miezekatze, Miezekatze"

Ohne Internetverbindung funktionieren die getesteten Programme übrigens nicht. Die Aufnahmen werden auf den Servern der Anbieter verarbeitet. Eine Alternative sind kostenpflichtige Programme wie etwa Dragon Naturally Speaking . Die Software arbeitet lokal auf dem PC, kostet für Privatanwender ab 99 Euro. Wer Spracherkennung lieber gratis und auf dem Smartphone nutzen möchte, muss also darauf hoffen, dass die kostenlosen Systeme noch besser werden.

Die Wiedergabe wurde unterbrochen.