Forum: Netzwelt
Spracherkennung auf Smartphones: Funktioniert sprechen so gut wie tippen?
DPA

Auf iPhones und Android-Handys kann man Texte diktieren, statt sie einzutippen. Aber wie gut erkennen die Systeme Gequassel aus der Sesamstraße, die Kanzlerin und einen Rapper? Wir haben es ausprobiert.

Seite 1 von 4
doktorfeinfinger 09.04.2017, 17:38
1. In 5 Jahren

werden viele Berufe wie (Fremdsprachen)sekretärin, Dolmetscher, Lektoren neben all den anderen Berufen die der Automatisierung 4.0 zum Opfer fallen, nicht mehr existieren. Auch diesen Text habe ich mit Siri fehlerfrei direkt ins Smartphone diktiert.

Beitrag melden Antworten / Zitieren
HubertusR 09.04.2017, 17:48
2. Situationen aus dem wahren Leben, ...

Liebe Tester, ich weiß ja nicht, was zu Hause oder bei Euch in der Redaktion so abgeht. Eine Neujahrsansprache, ein Rap-Gesang und die Sesamstraße sind jedenfalls für mein Privat- und Berufsleben meist nicht typisch. Wie wäre es denn gewesen, als Test mal eine E-Mail oder eine Whatsapp-Nachricht zu diktieren? Da hätte dann die Google Spracherkennung auch nicht zu Recht wegen Blödsinns gestreikt.

Beitrag melden Antworten / Zitieren
Marvel Master 09.04.2017, 18:00
3. Ganz gut

Hallo,

wenn man langsam und deutlich die Spracherkennung benutzt, dann ist die Erfolgsrate bei über 95 Prozent. Das ist schon bemerkenswert. Das war jedenfalls 1995 noch völlig undenkbar. Da musste man Spezialsoftware erst tagelang trainieren, bis sie auf dem Niveau von Siri und Co waren.

Von daher schon beeindruckend was die großen IT Konzerne da entwickelt haben.

Ich gehe daher davon aus, dass man in den nächsten 10 bis 20 Jahren Systeme haben wird, die so gut sind, wie der Mensch selber. Alles eine Frage der Zeit.

Sehr spannend jedenfalls.

VG

Beitrag melden Antworten / Zitieren
Afrojüdischer_Sozi-Sinti 09.04.2017, 18:21
4. Schön und gut

Aber solange es keine öffentliche Infrastruktur gibt in der die Wahlfreiheit von Anbietern solcher Technologien gewährleistet wird, wird langfristig jeglicher potentielle Vorteil den sie bietet verspielt.
Das gesamte Potential des informationstechnischen Fortschritts fällt - wie die Globalisierung - einer unzeitgemäßen und nachweisbar fatalen Wirtschaftsideologie und den von ihr profitierenden Vertretern zum Opfer.
Insofern ist es einerseits erfreulich wenn die Technik sich weiterentwickelt, was aber durch die mangelnde gesellschaftliche Weiterentwicklung - von der Politik bis zu jedem einzelnen - völlig relativiert wird.
Um konkreter auf die in diesem Artikel beschriebene Funktion einzugehen:
Die Motivation hinter der Weiterentwicklung von Spracherkennung ist nicht alleine die Steigerung von Annehmlichkeit oder Effizienz im Umgang mit Informationen, sondern auch die verlockenden, immensen Möglichkeiten der automatisierten Datenerfassung und Auswertung, sprich Überwachung und den sich daraus ergebenden Möglichkeiten der Kontrolle. Man sollte immer darauf achten wer am Ende Zugriff darauf haben könnte, hat oder haben wird.
Leider ist das den meisten Leuten völlig egal und andere Dinge erscheinen wichtiger. Dabei handelt es sich um eines der wichtigsten Probleme unserer Zeit welches, wenn es nicht ernst genommen wird, alles zunichte machen kann was anderswo möglicherweise noch erreicht wird.

Beitrag melden Antworten / Zitieren
joey2312 09.04.2017, 18:42
5. unrealistisches Testsetting

Wie schon von einigen Foristen angemerkt ist das Testsetting ziemlich unrealistisch. Ich verwende Googles Android Auto, um WhatsApp-Nachrichten per Diktierfunktion zu versenden und habe selbst bei umgangssprachlichen Wendungen oder Spitznamen fast nie Korrekturbedarf. Ich muss dafür auch nicht​besonders gekünstelt oder langsam sprechen, ganz im Gegenteil: Am besten funktioniert die Erkennung bei ungekünsteltem Sprechen in normalem Tempo.

Beitrag melden Antworten / Zitieren
chailatte 09.04.2017, 18:45
6. Ganz gelassen

kann ich als jemand, der mit der Transkription von Texten beruflich arbeitet, die Entwicklung begleiten und mich entspannt zurücklehnen, denn Spracherkennung wird in absehbarer Zeit nicht das leisten können, was die Kombination aus Ohr und Gehirn leisten können. Dabei geht es nicht nur um die Hörumgebung, sondern auch um das tolerante Zuhören, das Fehler ignoriert, falsche Verneinungen korrigiert/überhört, Unverständliches aus dem Kontext erschließt und so weiter. Außerdem warte ich auf den Tag, an dem Programme die richtige Zeichensetzung beherrschen. Wenn es darum geht, kurze Texte in sein Smartphone zu diktieren, dann kann das eine Option sein, aber für die Erfassung langer gesprochener Texte (und damit meine ich nicht 20 Minuten, sondern 4 Stunden aufwärts) mit kompliziertem Inhalt, Fach- und Fremdwörtern, Anglizismen, Kunstwörtern und Versprechern (zum Beispiel Sitzungen) ist der Aufwand der Überarbeitung eines durch eine Spracherkennungssoftware erstellten Textes nach wie vor viel höher als der Aufwand der Erfassung über eine Tastatur. Wahrscheinlich kommt einem die Spracherkennung nur deshalb so komfortabel vor, weil viele das Tastschreiben nicht mehr in ausreichender Geschwindigkeit beherrschen. Wenn man natürlich nur 50 Anschläge die Minute schreiben kann, ist Spracherkennung wahrscheinlich schneller....

Beitrag melden Antworten / Zitieren
Frank Kreuzer 09.04.2017, 19:04
7. Gequassel aus der Sesamstraße

Daran erkennt man, woher Sie ihre Informationen beziehen. :-)

Dabei nutzen Ihre politischen Korrespondenten das schon professionell. Die lassen das bei der Bundespressekonferenz mitlaufen und schreiben, überarbeiten ein bisschen und schon ist der Artikel so fertig, wie ihn die Regierung wünscht. Nur noch zur Genehmigung dem Seibert zumailen und schon kann veröffentlicht werden.

Beitrag melden Antworten / Zitieren
z11 09.04.2017, 19:10
8. Wer hat's erfunden?

Die Kerntechnologie, die neuronale Einheit aller heutigen Neuronaler Netze für Spracherkennung, das Long Short Term Memory (LSTM), wurde 1991 von Sepp Hochreiter in seiner Diplomarbeit an der TU München erfunden und 1997 in Rahmen seiner Promotion mit seinem damaligen Doktorvater Jürgen Schmidhuber veröffentlicht. Sepp Hochreiter ist heute Prof. für Bioinformatik an der JKU Linz, Österreich. Wollte es nur mal erwähnen :)

Beitrag melden Antworten / Zitieren
beob_achter 09.04.2017, 19:37
9. Vor Simultan-Dolmetschern (w/m)

Zitat von doktorfeinfinger
werden viele Berufe wie (Fremdsprachen)sekretärin, Dolmetscher, Lektoren neben all den anderen Berufen die der Automatisierung 4.0 zum Opfer fallen, nicht mehr existieren. Auch diesen Text habe ich mit Siri fehlerfrei direkt ins Smartphone diktiert.
habe ich eine riesige Hochachtung!

Viele Male durfte ich erleben, wie sie äußerst komplexe Fachsprache, die von Konferenzteilnehmern aus verschiedenen Ländern vorgetragen wurde, fehlerfrei in eine andere Sprache übertrugen.
Diese Dolmetscher haben einen riesigen Wortschatz, der vor allem Fachbegriffe _plus_ deren unterschiedliche Bedeutungen in den jeweiligen Fachgebieten umfaßt.
Obendrein filtern sie landestypische Redewendungen und sorgen dafür, daß sie von Menschen aus anderen Kulturkreisen perfekt und ohne Fehlinterpretationen verstanden werden.

Wie man "jemals" diese Menschen "wegrationalisieren" könnte, bleibt mir ein Rätsel - bis zum Beweis des Machbaren...

Beitrag melden Antworten / Zitieren
Seite 1 von 4