Sprachsteuerung Bequemlichkeit schlägt alles, sogar deutsche Bedenken

Das nächste Interface für die digitale Welt wird die Stimme. Die Einstiegsdrogen von Amazon und Google verbreiten sich auch hierzulande schnell, und die Folgen werden so tiefgreifend sein wie beim Smartphone.

Amazon-Manager David Limp mit Echo
AP

Amazon-Manager David Limp mit Echo

Eine Kolumne von


Der lustigste deutsche Tweet des Jahres 2017 war ohne Zweifel im November mitten ins Scheitern von Merkels missmutiger Mitregierzentrale hineingeschossen: "Alexa, regiere Deutschland."

Das ist witzig, weil das Zwiegespräch mit Netzrobotern Normalität geworden ist. Bei der Verbreitung von Technologie gibt es ein wiederkehrendes Muster, ich bezeichne es als "progress of no return", Fortschritt ohne Wiederkehr: Durchschnittsnutzer spüren, dass sie nicht mehr hinter diesen Standard zurückfallen wollen. Vorherige Anwendungen erscheinen überholt. Wer 2008 ein Smartphone mit Touchscreen in die Hand nahm, spürte, die physische Handy-Tastatur ist alt. Wer bei Musik oder Filmen in den letzten Jahren ins Streamen geriet, dem erschienen dinglich-digitale Datenträger museal. Ähnliches ist bei der Elektromobilität zu erahnen, und jetzt zieht das Reden mit dem Netz herauf, Smart Speaker mit digitalen Assistenten, angetrieben von sogenannter künstlicher Intelligenz.

Es gibt kaum konkrete Verkaufszahlen, nur Andeutungen: Google hat seit Oktober pro Sekunde mehr als einen Google Home verkauft, Amazon zu Weihnachten mindestens 20 Millionen Alexa-Geräte. In Deutschland dürfte die Millionengrenze von Geräten überschritten worden sein. Der "Economist" erklärte Amazon zur größten Lautsprecherfirma der Welt.

Weihnachten 2017 markiert den Durchbruch der Stimme als Interface für die digitale Welt. Die Folgen werden so tiefgreifend sein wie beim Smartphone, das alles veränderte außer den deutschen Bildungsapparat, der traditionell mit der Geschwindigkeit der Kontinentaldrift auf Veränderungen reagiert. Einem Gerücht zufolge wird Facebook im Mai ein Gerät namens Portal vorstellen, einen Lautsprecher mit Bildschirm und Kamera, der auf Videochats zugeschnitten sein soll. Mit Gesichtserkennung und automatischer Verbindung mit den Facebook-Accounts der Anwesenden. Hört sich gruselig an, aber wenn sich etwas verändert hat in den letzten Jahren, dann die Grenze, ab der Durchschnittspersonen vernetzte Technologien gruselig finden. In jeder deutschen Fußgängerzone wäre man vor 30 Jahren blau geschlagen worden allein für die Frage, ob man eine "Wohnzimmerwanze" kaufen würde, die jedes Wort nach Amerika funken kann. Bei einer Million Smart Speaker in Deutschland allein von Amazon muss es rein statistisch Leute geben, die in den Achtzigerjahren gegen die Volkszählung protestierten und heute Alexa als Teil der Familie behandeln. Die Weltmacht Bequemlichkeit schlägt alles, sogar deutsche Bedenken.

Einstiegsdroge Echo

In zehn Jahren wird man mit Wehmut und Belustigung auf die Phase schauen, als in der digitalen Sphäre schriftliche Interaktion der Standard war. Tastaturen und Mäuse werden dann noch zur Arbeit verwendet, sonst Sprache und Gesten. Heute stehen Kinder zu Recht verständnislos vor Bildschirmen, die sich erdreisten, keine Touchscreens zu sein oder wenigstens gestengesteuert. Bald wirken Alltagsgeräte, mit denen man nicht sprechen kann, ähnlich gestrig.

Smart Speaker wie Amazons Echo sind Einstiegsdroge und Brückentechnologie, demnächst gehen sie im Rest der Heimtechnik auf. Man spricht einfach in den Raum hinein, und es wird egal sein, welches der Dutzend Mikros die Daten zum Server übertragt. Smart Home ist da, nur anders, es ist kein Gerät, kein bescheuerter Kühlschrank, der Milch nachbestellt, sondern ein Sprachinterface.

Sprachsteuerung ist die bisher niedrigschwelligste Interaktion mit der digitalen Welt. Niedrigschwelligkeit ist ein Wert an sich, sie legt frei, was zuvor unter Mühseligkeit verborgen war. Die meisten Digitalumwälzungen ließen sich schon vor ihrem Siegeszug irgendwie bewerkstelligen, "Mobile Instant Messaging hab ich schon 87 mit verteiltem Echtzeit-Java auf Linuxbasis im IRC compilet!" Meine Drei-U-Regel: Erst wenn die Zukunft unkompliziert, unnerdig und unanstrengend genug ist, ist sie reif für die Bevölkerung. Wer vor der Erfindung des App Store versucht hat, Software auf dem Mobiltelefon zu installieren, weiß, dass Niedrigschwelligkeit Märkte entstehen lässt, auf Kosten bestehender Märkte.

Digital betreutes Wünschen

"Voice Commerce" wird eine weitere Herausforderung für den Handel, das Offliner-Argument "Beratung bekommt man nur im Laden!" zerbröselt. Die Verkäuferin zu Hause hat alles, ist nicht aufdringlich und kennt die Konsumhistorie. "Alexa, ich möchte die Schuhe noch mal, die ich im letzten Herbst gekauft habe. Aber in Rot", daran arbeitet Amazon. Digitale Assistenten müssen als automatisierte Dauerverkäufer für alles verstanden werden, Voice bedeutet die vollständige Kommerzialisierung jedes Moments, wenn man möchte. Die Leute möchten in Scharen.

Auf Sprachplattformen gerinnt Werbung zum Vertriebsgespräch, Anbieter kaufen Vorschlagsslots. "Es gibt rote Schuhe von Nike, gerade runtergesetzt. Ich schicke sie dir in deiner Größe zu, wenn sie dir nicht gefallen, werden sie kostenlos abgeholt." Natürlich werden die Leute das tun, Niedrigschwelligkeit ist ein Schwert, das in beide Richtungen schneidet. Irgendwann gibt man die Gegenwehr auf und redet sich ein, man hätte es eh so gewollt, das hat das Internet vom Kapitalismus gelernt. In China, wo heute die Zukunft des Internet entschieden wird, ist der frühere Whatsapp-Klon WeChat längst auch eine Sprach-Plattform, die mit ihren Apps verschmolzen ist. Auf der Basis cleverer Spracherkennung hat das chinesische Startup iFlytek 500 Millionen Nutzer gewinnen können, das ist sogar für China viel. Jüngste Entwicklung: die App "Kleiner Fliegender Fisch" ohne visuelles Interface, die das Smartphone in eine Art Alexa für Autofahrer verwandelt.

Dieser "progress of no return" sieht aus wie die Sprachsteuerung des Internets, eigentlich ist es digital betreutes Wünschen mit einer Konsumfee, die jeden Tag selbstverständlicher, klüger, machtvoller wird. Weil bei Sprachsteuerung kaum mehr als zweieinhalb Vorschläge zweckmäßig sind, ist die algorithmische Vorauswahl so essenziell. Daraus ergibt sich ein Rattenschwanz an Konsequenzen. Wenn man etwa den Smart Speaker mit Spotify verbindet, ist fast jedes Musikstück nur einen Zuruf entfernt, man kann sofort hören, was man will. Allerdings muss man dann auch aktiv wollen. Das ist der Moment, wo man begreift, wie anstrengend es ist, ständig bewusst auszuwählen. Wie sehr Konsum bisher von Gelegenheiten und Zufällen geprägt war. Wie angenehm man sich fallen lassen kann in die weiche Matte algorithmischer Entscheidung.

Alexas Fehler sind nur Kinderkrankheiten

Schopenhauer schrieb: "Der Mensch kann zwar tun, was er will, aber er kann nicht wollen, was er will." Im hyperkomplexen 21. Jahrhundert heißt es: Der Mensch kann in fünf von hundert Dingen sinnvoll tun, was er will, beim Rest fährt er besser mit algorithmischen Vorschlägen, und die Sprachsteuerung offenbart es. Das ist knalltraurig und zukünftig zugleich, denn es ist realistisch. Ein Beispiel: ich.

Die Playlists, die mir Spotify und Soundcloud vorschlagen, sind viel besser, als wenn ich selbst mühsam meine Musik mixen müsste. Musiknerds gehen von sich aus und protestieren, aber meine bittere Laienwahrheit ist: Ich bin ein zu schlechter, zu ahnungsloser, zu fauler DJ für meinen eigenen Musikgeschmack, und ich bin damit nicht allein. Die heutigen Dysfunktionalitäten - Alexa versteht oft lustig schlecht - sind Kinderkrankheiten, Gesprächsstoff für die Kantine, sogar eine Form von Genre-Marketing. Mit jeder Anekdote über einen falsch erkannten Wunsch wird die Funktionalität alltäglicher, die Technologie akzeptierter, der Wunsch, es auszuprobieren größer: Marketing by funny failing.

Die nächste Milliarde Internetnutzer werde vor allem Sprache verwenden, um in der digitalen Sphäre zu interagieren, schrieb das "Wall Street Journal". Das Netz wandele sich in eine Sprech- und Videolandschaft, manuelle Texteingabe werde zum Sonderfall. Das mag auf manche wirken wie ein Rückschritt, aber es ist das Gegenteil: "progress of no return", Fortschritt ohne Wiederkehr. Die Plattformkonzerne, die heute für so viele das Netz sind, erobern die älteste Kommunikationsform der Menschheit: das Gespräch. Und alle machen mit. Alexa regiert Deutschland.

Mehr zum Thema
Newsletter
Kolumne - Die Mensch-Maschine


insgesamt 176 Beiträge
Alle Kommentare öffnen
Seite 1
modemhamster 10.01.2018
1. Willkommen in Qualityland
Marc Uwe hatte einfach recht. Aber John Ofus statt Dobrindt...das ist doch mal eine optimistische Perspektive.
spon_4_me 10.01.2018
2. Und?
Sehr schöne Darstellung. Mir drängt sich nur die Frage auf: Und? „Progress of no return“ klingt ja irgendwie unheimlich, aber ist Fortschritt nicht ein komplexes, vieldimensionales Puzzle statt eine Richtung oder ein Weg? Und wann ist Fortschritt je irgendwohin zurückgekehrt? Was also will der Autor mir jenseits des Deskriptiven eigentlich sagen? Dass es so kommt? Und dann doch anders, als man denkt?
michelinmännchen 10.01.2018
3. Informationen notwendig
Wie ist denn die Verbreitung dieser "Dinger", abgesehen davon, dass viele Handynutzer soetwas ähnliches ja schon haben... Ich denke nicht, dass das in allen Haushalten zum Standard wird, nur in denjenigen, die sich das a) leisten können, nebst Peripherie und b) denjenigen, die dem Datenschutz abgeschworen haben.
vox veritas 10.01.2018
4.
Ähem, Bedenken akzeptiert und verstanden, aber mal ehrlich: Niemand muß sich so ein Ding ins Wohnzimmer stellen, wenn er nicht will.
C-Hochwald 10.01.2018
5. Spieltrieb
Warum ist es plötzlich notwendig, per Sprachbefehl die Christbaumbeleuchtung an- und auszuschalten? Ein Freund von mir, selbst IT-Manager, sagte mir, er könne nun wie einst Cpt. Kirk mit einem Computer kommunizieren...... Zugunsten der kindheitlichen Spieltrieb- und Nachahmungsgelüste werden alle Bedenken bzgl. Datenschutz über Bord geworfen, selbst wenn auf dem Amazonserver die Sprachbefehle dauerhaft gespeichert bleiben, wie man am 18. Dez. um 19:30Uhr in einer ZDF-Reportage erleben durfte. Und wenn man anstelle "Alexa" irgendwie was mit "Extra" nuschelt, zeichnet der Amazonserver auch andere Gespräche auf, weil die Spracherkennung nicht 100% fehlerfrei ist. Vor 28 Jahren haben unsere ostdeutschen Landsleute fast bis zum Schießbefehl dafür friedlich demonstriert, daß sie die DDR und den Stasistaat loswurden. Nun holen sich die Menschen die Überwachungswanzen freiwillig in die Wohnung, nur weil es geil ist, per Sprachsteuerung irgendwelche elektrische Funktionen zu aktivieren. Wer kann sicherstellen, daß die Anbieter keinen Unfug mit unseren Daten machen? Was passiert, wenn die Server gehackt werden - da möchte man doch glatt selbst zum Geheimdienstler werden - geradezu paradisische Arbeitsbedingungen. Sprachgesteuerte Assistenten kann ich noch für Menschen verstehen, die körperlich eingeschränkt sind, aber doch nicht bei gesunden Menschen.
Alle Kommentare öffnen
Seite 1
Diskussion geschlossen - lesen Sie die Beiträge! zum Forum...

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.