Die Jahre der Tastatur sind gezählt, jedenfalls für einige Aufgaben an Smartphone und PC. Sprachassistenten reagieren auf Zuruf. Wer deutlich spricht, kann mit kostenloser Diktier-Software sogar lange Texte erstellen.

Schwierig wird's beim Transkribieren von Worten, die eigentlich nicht zum Mitschreiben gedacht waren. Wir haben die Spracherkennungstechnik von Google, Apple und Nuance in drei solchen Situationen getestet.

Bei Google und Apple gibt es Spracherkennung gratis, sie ist Bestandteil der Mobilbetriebssysteme iOS und Android. Die Diktier-App Dragon Anywhere von Nuance kostet zwölf Euro pro Monat. Wer den Apps beim Arbeiten zusieht, lernt viel über ihre Grenzen - und ihre Fähigkeiten.

Bitte sprechen Sie deutlich

Unser erster Testfall: die Neujahrsansprache der Bundeskanzlerin. Damit kommen die drei getesteten Systeme ganz gut zurecht. Das liegt an den optimalen Bedingungen der Aufnahme: Spracherkennung klappt grundsätzlich am besten bei einer natürlichen Stimmlage, Hochdeutsch und einem ruhigen Hintergrund - so erklärt es Dorothea Kolossa von der Ruhr-Universität Bochum. Die Professorin forscht dort am Institut für Kommunikationsakustik über Spracherkennung und Signalverarbeitung.

Test 1: Merkels Neujahrsansprache Vorlage für den ersten Test ist Angela Merkels Neujahrsansprache von Silvester 2013. Alle getesteten Aufnahmen wurden der Software in einem stillen, hallfreien Raum über Lautsprecher vorgespielt. Als Mikrofon diente ein günstiges Headset, wie es viele Smartphone-Nutzer zum Telefonieren verwenden. Googles Spracherkennung auf Android-Smartphones hat mit der Neujahrsansprache kaum Probleme. Nur am Ende gibt es einen kleinen Fehler. Die Satzzeichen fehlen übrigens bei allen getesteten Apps. Beim Diktieren muss der Nutzer selbst ausdrücklich "Punkt" und "Komma" sagen. Auch die Diktierfunktion von Apples iOS liefert auf Anhieb ein vorzeigbares Transkript. Wieder führt der Abschnitt mit dem Wort "jagt" zu einem Missverständnis. Aus dem Wörtchen "mehr" wurde ein "mir". Vier kleine Fehler macht das kostenpflichtige "Dragon Anywhere" von Nuance. Die App gibt es für iOS und Android. Sie kostet zwölf Euro pro Monat. Nutzer können ihren Text in der App mit Sprachbefehlen bearbeiten und schnell neue Befehle und Wörter hinzufügen.

"Hallige Räume sind für Spracherkennung aber ein Problem, etwa Bahnhöfe oder Kirchen", sagt Kolossa. Durch den Hall würden einige Eigenschaften des Gesprochenen stark verändert, weil die Worte lange nachklingen. Auch Lärm oder andere Sprecher im Hintergrund könnten stören. Weniger problematisch sind gleichmäßige Geräusche, die sich herausrechnen lassen, beispielsweise rauschender Verkehr beim Autofahren.

Mag Kollegah "kundige Geometrie"?

Bei unserem zweiten Test haben wir den Spracherkennungs-Apps eine besonders schwere Aufgabe vorgesetzt: Sprechgesang. Weil Musikbegleitung die Programme überfordern kann, diente als Vorlage eine A-capella-Kostprobe des deutschen Rappers Kollegah.

Die drei Apps erkennen dabei viel, aber nicht alles. Was diesen Test so schwer macht, ist wohl weniger Kollegahs Geschwindigkeit als seine Wortwahl. Kollegah spricht eine Sprache voller Anglizismen und Kunstworte. Darauf lässt sich eine Spracherkennung nur schwer trainieren.

Test 2: Kollegah Für den YouTube-Kanal "16 Bars TV" hat Kollegah einige Zeilen seines Titels "Town, die nie schläft" ohne Musikbegleitung gerappt: "Sieh mich Geld zählen, Player, ey, ich mach so viel Geld / Dass ich Hunnis mittlerweile nicht mehr zu Geld zähle, Player/ Es sind Selfmade, Kollegah, German Dream, Farid Bang / Mörderteam, für Laas wird's eng wie Röhrenjeans, die Straßen brenn' / Körper wie'n Karate-Champion, Burberry, Armani-Hemden / Weißgold tragend, du mit Streichholzarmen wie'n Kastanienmännchen." Mit deutlicher Aussprache kann Kollegah dienen, mit Sprechpausen nicht. Die Spracherkennungssoftware von Google zeigt sich schnell überfordert und gibt nach dem Wort "Champions" einfach auf. Die iOS-Spracherkennung hält bis zum Ende durch und erkennt sogar Worte wie "Streichholzarm" und""Kastanienmännchen". Aus dem "Hunni" wird "Honig", und aus "Kollegah“ wird "Kuhläger" - der Name einer Straße in Offenburg. Auch Dragon Anywhere hält bis zu den "Kastanienmännchen" durch. Aus der Modemarke "Burberry" wird allerdings "Bärbel", aus "Kollegah" "Gazelle" und aus "German Team" "kundige Geometrie".

Stark vereinfacht lässt sich die Funktion der meisten modernen Spracherkennungssysteme so erklären: Sie erkennen Laute, die sie zu Worten und Sätzen zusammensetzen. "Damit aus den Lauten Worte werden, ermittelt ein Suchalgorithmus, mit welcher Wahrscheinlichkeit welche Laute aufeinanderfolgen", sagt Dorothea Kolossa.

Dabei helfen phonetische Wörterbücher und riesige Datenmengen aus bereits korrekt transkribierten Aufnahmen. In einem zweiten Schritt prüfen die Programme, mit welcher Wahrscheinlichkeit welche Worte aufeinander folgen. Um hier zu einer guten Treffsicherheit zu kommen, werden ihre Datenbanken mit gigantischen Mengen korrekt transkribierter Texte gefüttert.

"Dank neuronaler Netze können moderne Programme viel besser aus großen Datenmengen lernen als noch vor wenigen Jahren", erklärt Kolossa. Neuronale Netze seien eine Revolution in der Spracherkennung. "Ich rechne damit", sagt Kolossa, "dass sich in den nächsten drei Jahren Systeme verbreiten, die gesprochene Sprache in vielen Situationen besser erkennen als der Mensch."

Bei Gequassel ist die Software hilflos

Der dritte Test stellt die Apps vor eine Aufgabe, die Menschen leicht fällt: Es ist ein Dialog von Puppen aus der Kindersendung "Sesamstraße". Im Videoclip trifft ein feiner Herr mit Schnurrbart das schusselige Monster Grobi.

Test 3: Sesamstraße Der Dialog in Schriftform:

- "Ich hätte gerne einen schönen Burger mit Pommes. Ich freu mich schon den ganzen Tag darauf."

- "Mein Herr, darf ich Ihnen stattdessen vielleicht die Spezialität des Tages vorschlagen, die Tomatenüberraschung?"

- "Was ist denn die Tomatenüberraschung?"

- "Es ist eine Sinfonie kulinarischer Köstlichkeiten!"

- "Ja, aber was ist es genau?"

- "Wenn ich Ihnen das verraten würde, wäre es doch keine Überraschung mehr! Wissen Sie, eine Überraschung ist etwas, das man nicht erwartet und bei der man ausruft: Oh! Also das darf doch wohl wirklich nicht wahr sein!" Googles Diktier-Software versteht den Herrn mit Schnurrbart einwandfrei. Aber bei Grobis krächziger Stimme gibt sie nach wenigen Worten auf. Die Diktier-Software von iOS hält länger durch und erkennt sogar Grobis "Sinfonie kulinarischer Köstlichkeiten". Trotzdem hat sie beim Dialog deutliche Probleme. Dragon Anywhere macht aus der "Spezialität des Tages" die "Vitalität des Planeten", hält aber bis zum Ende durch. Auch hier fällt auf, dass die Stimme des Herrn mit Schnurrbart deutlich besser erkannt wird als die von Grobi.

Der krächzende Grobi bringt die Spracherkennungssysteme aus dem Konzept. Auf eine unnatürliche Stimmlage wie die von Grobi sind sie offenbar kaum vorbereitet. Wenn sich die Puppen in einer späteren Szene gegenseitig ins Wort fallen, erkennt die Software gar nichts mehr: zu viel Gequassel.

Menschen, gerade wenn sie ein gutes Gehör haben, können sich in solchen Situationen deutlich besser auf eine Person konzentrieren, erklärt Kolossa. "Schließlich können sie fürs Verstehen noch Mimik, Gestik und Lippenbewegungen zur Hilfe nehmen." Auf solche Informationen kann eine Spracherkennungssoftware nicht zurückgreifen.

iOS und Dragon Anywhere haben die Nase vorn

Vorträge meistern alle getesteten Systeme gut. Für lebhafte Gespräche und ungewöhnliche Formulierungen sind sie noch nicht ausgefeilt genug. Unter erschwerten Bedingungen haben sich die Systeme von Apple und Nuance am besten geschlagen. Googles Spracherkennung hat einfach mit dem Transkribieren aufgehört, wenn es ihr zu verwirrend wurde.

Ohne Internetverbindung funktionieren die getesteten Programme übrigens nicht. Die Aufnahmen werden auf den Servern der Anbieter verarbeitet. Eine Alternative sind kostenpflichtige Programme wie etwa Dragon Naturally Speaking. Die Software arbeitet lokal auf dem PC, kostet für Privatanwender ab 99 Euro. Wer Spracherkennung lieber gratis und auf dem Smartphone nutzen möchte, muss also darauf hoffen, dass die kostenlosen Systeme noch besser werden.