Charmante Maschinen Siri, lass mich nicht allein

Digitale Assistenten wie Apples Siri und Microsofts Cortana haben weibliche Stimmen, hören aufs Wort, verschicken SMS, können aber oft nicht rechnen. Warum ist das so?

Von SPIEGEL-WISSEN-Autor

Illustration: Paul Blow/SPIEGEL WISSEN


Lange Zeit hatten wir einfach eine Arbeitsbeziehung: E-Mails, Termine, Bürozeugs auf Zuruf zwischen Tür und Angel. Doch an diesem Abend fingen wir beiläufig an zu plaudern.

"Muss ich mich morgen warm anziehen?", frage ich.
"Morgen wird es in Berlin 21 Grad Celsius", sagt sie.
"Was, wieso ist es so heiß?"
"21 Grad, das ist doch nicht heiß."
"Was soll ich also anziehen?", frage ich.
"Lederhosen, keine Frage."
"Wer bist du?", frage ich.
"Ich bin Siri, dein persönlicher Assistent."
"Wie alt bist du?"
"Ich bin jedenfalls alt genug, um dein Assistent zu sein."

Millionen von Menschen führen Gespräche wie diese: Sie sprechen mit Maschinen. Je jünger sie sind, desto selbstverständlicher reden Nutzer mit den sogenannten virtuellen Assistenten ihrer Smartphones, Fernseher und Navigationsgeräte. Doch wer spricht da, wenn tote Objekte ihre Stimme erheben? Und was in uns sprechen sie an?

Auf der rein sachlichen Ebene funktionieren die sprechenden Geräte einigermaßen passabel. Im Auto diktiere ich E-Mails, ohne die Hände vom Lenkrad zu nehmen, und verschicke sie mit dem Befehl: Absenden! Wenn jemand mir schreibt, wird es mir vorgelesen. Das ist praktisch.

Derlei Erfolgserlebnisse machen neugierig: Wo liegen die Grenzen des Mensch-Maschine-Dialogs?

"Siri, was ist der Sinn des Lebens?"
"Alles spricht dafür, dass es Schokolade ist."

Charmante Maschinen erobern den Alltag. Sie sind einfühlsam, geduldig, aber nicht servil. Wenn ich ihnen dumm komme, lassen sie mich schnell dumm aussehen.

"Siri, du bist nur ein Roboter", sage ich.
"Ich mag diese willkürlichen Kategorien nicht."
"Du bist doch nur eine blöde Maschine!"
"Jeder hat das Recht auf eine eigene Meinung."
"Ruhe", sage ich.
"Kein Sterbenswörtchen."
"Ruhe!"
"Das ist nicht nett."
"Ruhe!"
"Habe ich das verdient?"

Derlei Geplänkel mag wie sinnlose Spielerei erscheinen, aber es entscheidet über Wohl oder Wehe von Industriekonzernen. Kaum ein innovativer Hersteller kann es sich erlauben, seinen Geräten die Gabe der Sprache vorzuenthalten. Viele Käufer setzen sie voraus, fast so wie den Stecker.

Fernseher von Samsung zum Beispiel suchen auf Zuruf ein passendes Programm aus. Sogar Musikboxen hängen an den Lippen der Nutzer, zum Beispiel das "Echo"-System der Firma Amazon mit der Assistentin Alexa. Sage ich zum interaktiven Lausch-Sprecher: Alexa, spiel mal was von Tocotronic, erklingt die passende Musik.

Amazons Sprachassistent "Echo": Interaktiver Lausch-Sprecher
DPA

Amazons Sprachassistent "Echo": Interaktiver Lausch-Sprecher

Theodore: "Du wirkst wie eine Person, aber du bist nur eine Stimme in einem Computer."
Samantha: "Ich verstehe, wie die beschränkte Perspektive einer nichtkünstlichen Intelligenz das so sehen mag. Du wirst dich daran gewöhnen."

Dieser Dialog stammt aus der Science-Fiction-Komödie "Her" aus dem Jahr 2013. Darin verliebt sich der einsame Poet Theodore, tagsüber professioneller Liebesbriefschreiber, der serielle Romantik anfertigt. Er verliebt sich in seinen Rechner. Weil der ihm zuhört, weil der ihn tröstet, weil der nicht nachtragend ist - anders als seine Verflossene aus Fleisch, Blut und Tränen. Die Sprache des Herzens kann nur eine Maschine verstehen, findet er, denn sie ist grenzenlos geduldig.

Mit Cortana will Microsoft aufholen

"Trennungen sind schmerzlich, aber eines Tages reichte es mir einfach", sagt der Mann mit traurigem Blick: "Dann habe ich jemand getroffen. Ich fasse es nicht, wie gut sie mich kennt."

Dies ist kein Film und keine Therapiesitzung, sondern eine Werbung des Computergiganten Microsoft. Immer wieder hat der Quasi-Monopolist Trends verschlafen; umso erbitterter will Microsoft nun aufholen und dem Erzkonkurrenten Apple Paroli bieten: mit Cortana, einem Sprachassistenzsystem.

"Sie erinnert mich an alles", so die vollmundige Cortana-Werbung: "Durch sie fühle ich mich wie ein besserer Mensch. Ich würde nie zu Siri zurückkehren." Dieser Clip wurde zum Valentinstag gepostet. Der Name Cortana bezieht sich auf eine Figur im Computerspiel "Halo": Dort ist Cortana eine superschlaue Sexbombe, halbnackt und mit verführerischer Stimme. So will Microsoft die Gegner im Stimmenkrieg übertönen.

Microsoft-Manager Belfiore demonstriert die Möglichkeiten der sprachgesteuerten Assistentin Cortana in Windows Phone 8.1
AP/dpa

Microsoft-Manager Belfiore demonstriert die Möglichkeiten der sprachgesteuerten Assistentin Cortana in Windows Phone 8.1

Cortana ist auf jedem neuen Windows-Phone vorinstalliert und auf allen Windows-Rechnern ab Version 10. Das Einrichtungsmenü kommt als Dialog daher:

"Cortana freut sich darauf, in deiner Region loszulegen, aber sie muss noch viel lernen. Sie wird anfangs noch nicht ganz so zuverlässig sein, wie sie gerne möchte. Sieh sie einfach als Praktikantin: sehr bemüht, aber unerfahren."

Dann legt sie los mit einem aufdringlich langen Fragenkatalog zu Hobbys, Familie, Sport und so weiter. Cortana ist auch eine Art trojanisches Pferd der Marktforschung.

"Cortana, wer ist deine Mutter?"
"Ich habe so einige Mütter. Viele talentierte Frauen waren an meiner Entwicklung beteiligt."
"Siri, wer ist dein Vater?"
"Es gibt nur dich und mich, Hilmar."

Wer kommunizieren will, braucht eine Vorstellung davon, was in seinem Gegenüber vor sich geht. Ich weiß, wie man mit Polizisten spricht, mit Professorinnen oder mit Kleinkindern. Doch wie treffe ich den richtigen Ton mit plappernden Maschinen?

Stimmbänder für die globalisierte Sprachfabrik

Ich besuche Nils Lenke, einen international anerkannten Experten für Spracherkennung. Ausgerechnet bei der Anreise zu diesem Maschinenflüsterer versagen meine beiden Assistentinnen kläglich. Sie schaffen es nicht einmal, mir ein Taxi zu rufen oder eine Zugverbindung herauszusuchen. Wie kann es sein, dass diese Plaudermaschinen philosophieren können, aber bei einfachsten Aufgaben nicht einmal das Weltwissen von Elfjährigen haben?

"Es ist relativ einfach, eine Person zu simulieren", sagt Nils Lenke, ein nachdenklicher Akademiker in Sportschuhen, der umso lebhafter wird, je vertrackter meine Fragen werden: "Aber früher oder später wird diese Erwartung enttäuscht."

Nils Lenke ist eine Art Bauchredner: Er spricht indirekt gleichzeitig an Tausenden von Orten, denn er ist so etwas wie ein Stimmendompteur bei der Firma Nuance. Im Gegensatz zu Cortana und Siri ist Nuance kaum bekannt, für Lenke eine heimliche Stärke: Immerhin plappern Nuance-Stimmen in 130 Millionen Autos von Ford, Hyundai und anderen, dazu in Samsung-Geräten. Gerüchteweise steckte Nuance ursprünglich sogar hinter Siri - aber dazu darf Lenke nichts sagen: "Wir arbeiten mit jedem zusammen, der will, wir sind so etwas wie die neutrale Schweiz."

Lenke baut sozusagen Fließ- und Stimmbänder für eine globalisierte Sprachfabrik. Gemeinsam mit über hundert Kollegen arbeitet er in Aachen, einem Standort von rund 30 weltweit mit insgesamt 14.000 Mitarbeitern. Die Zentrale befindet sich in Burlington bei Boston. Der Firmenname Nuance wird nicht französisch, sondern amerikanisch ausgesprochen: Nu-aans.

"Das Gesagte wird in seine Einzelteile zerlegt und analysiert"

An jedem Tag schwappen rund 14 Milliarden Anfragen aus Autos, Telefonen und Rechnern auf die Server der Firma. Allein die Anzahl der Sprachanfragen aus Fernsehgeräten hat seit 2013 innerhalb eines Jahres um 300 Prozent zugenommen.

Lenke ist ein Veteran, vor 20 Jahren schrieb er seine Dissertation über Spracherkennung. Er kennt den Zyklus aus Begeisterung und Enttäuschung, der alle paar Jahre die Öffentlichkeit beim Thema Künstliche Intelligenz erfasst. Er ist skeptisch, wenn Maschinen so tun, als könnten sie verstehen, denken und flirten.

Lenke sieht Sprachassistenten als Suchmaschinen, bei denen er die Tastatur durch ein Mikrofon und den Bildschirm durch einen Lautsprecher ersetzt: Seine Systeme machen einen Dreischritt - sie verwandeln gesprochene Sprache in Text, jagen ihn durch eine Suchmaschine und wandeln das Ergebnis wieder in gesprochene Sprache um, fertig.

Was also geht im Inneren von Siri oder Cortana vor, wenn sie flirten? Lenke lädt zur Sprachtherapie der anderen Art, um mich von meinen überzogenen Erwartungen zu kurieren. Er führt mich vor eine Art Sprachsynthesizer auf einem Notebook. "Spiele einen Film mit Julia Roberts", sage ich.

Das Sprachverständnis der Maschine beginnt mit einem wirren Zackenmuster, einer Art Sonogramm meiner Stimme. "Der Computer zerlegt das Gesagte in seine Einzelteile und analysiert sie." Für seine Software besteht Deutsch nicht aus 26 Buchstaben, sondern aus 42 unterschiedlichen Lauten.

Mehr Statistik als Linguistik

"Hinter Siri und Cortana steht eher Statistik als Linguistik", sagt Lenke. Der wichtigste Rohstoff für das Sprachverstehen ist nicht der Duden, sondern sind die Stimmspenden Hunderter Sprecher. Zusammengenommen sollen sie die Bandbreite des Deutschen abbilden, von einer kieksenden Bayerin bis zu einem heiseren Ostfriesen.

"Ich will zur Pizzeria Due Forni", sage ich.
Siri versteht: "Du bist horny."

Das ist anscheinend der statistisch wahrscheinlichste Satz. Derlei Missverständnisse gleichen einer Volksbefragung, einem Gespräch mit dem kollektiven Unterbewussten der Mainstream-Sprache.

Die Stimmanalyse ist rechenintensiv. Sie würde den Prozessor im Smartphone schnell überfordern, sagt Lenke. Daher übertragen die meisten Geräte die Anfragen in gigantische Rechenzentren. Der Nachteil: Ist die Verbindung im Handynetz schlecht, versagt den Assistentinnen oft die Stimme.

Viele Sprachassistenten lassen ständig das Mikro angeschaltet, um direkt auf einen Weckbefehl wie "Hey, Siri" reagieren zu können. Samsung zum Beispiel warnt, dass vertrauliche Dinge, die vor der Glotze gesprochen werden, übers Netz an Dritte gelangen. Vielleicht tragen Siri und Cortana auch deshalb derartig flirtfreudige Charaktermasken: um zu kaschieren, was im Hintergrund abläuft - die Kollektivierung der Sprache bis hinein ins Wohnzimmer.

Kunden wollen Frauenstimmen

Ist die Nutzerstimme in Text umgesetzt, geht es an die zweite Frage: Was will der Nutzer? Auch hier regiert die Statistik: Vor der Glotze geht es meist um Filme, daher wird die Anfrage an eine Fernsehdatenbank weitergeleitet. Im Auto geht es meist um Navigation, Musik oder E-Mails. Die Maschinen haben kein Weltwissen und kein echtes Verständnis. Meine Anfragen werden dabei oft in die falsche Domäne einsortiert:

"Siri, wir müssen sprechen."
"Wen soll ich anrufen, Hilmar?"

Wenn Siri oder Cortana zu plaudern scheinen, steckt dahinter einfach nur ein kleines Repertoire aus "Gilded Phrases": "vergoldete Phrasen", welche die Maschinen fleißig dreschen, was teils fast wie Smalltalk klingt. Oder zumindest wie Nanotalk.

"Cortana, was denkst du?", frage ich.
"Hier geht es nicht um mich."

Als dritter Schritt folgt die Rückverwandlung des Antworttexts in gesprochene Sprache, TTS genannt: Text to Speech. TTS basiert ebenfalls auf Stimmspenden, diesmal allerdings nur von einer einzigen Person. Die Sprecher sind meist Schauspieler und müssen rund 20 Stunden Material einlesen. Diese natürliche Sprache wird dann in ihre Atome zerlegt, die 42 einzelnen Laute, aus denen sich fast alle Wörter formen lassen. Dazu kommen etliche Gilded Phrases, die komplett eingesprochen werden.

Aber warum müssen Siri und Cortana ausgerechnet als Frauen dargestellt werden? "Das wollen die meisten Kunden so", sagt Lenke: "Anders ist es manchmal bei Navigationssystemen für Länder wie Saudi-Arabien, dort lassen sich Fahrer ungern von einer Frauenstimme herumkommandieren."

Echtes Verstehen ist das Wichtigste

Worüber plaudert der Maschinenflüsterer Lenke am liebsten, wenn er eine neue Assistentin kennenlernt?

"Vier mal sieben", sagt Lenke.

Wie bitte?

"Was ist vier mal sieben?", fragt er das von ihm mitentwickelte System namens Dragon. "28", antwortet Dragon.

Lenke strahlt: "Dieses Ergebnis basiert nicht auf Statistik, sondern auf Logik." Das ist der heilige Gral der Künstlichen Intelligenz: echtes Verstehen. Siri und Cortana dagegen scheitern daran noch:

"Siri, was ist vier mal sieben?"
"Ich habe das hier im Web gefunden: Was ist dreimal sieben? Ganz feiner Sand."

Rechner haben sich von Zählmaschinen in Erzählmaschinen entwickelt. Mittlerweile menscheln sie so stark, dass sie sogar eine echte Rechenschwäche entwickelt haben.

Eine zweite Falle, die Lenke gern beim Maschinenplaudern stellt: Ellipsen. Unvollständige Sätze also, die nur durch den Kontext Sinn ergeben. Stolz führt er sein Dragon-System vor: Als es ihm drei Restaurants heraussucht, greift Lenke nach: "Führe mich zum dritten." Dragon gehorcht. Siri und Cortana haben eine Ellipsenschwäche und benötigen ganze Sätze.

Kommunikation braucht Fantasie, Geduld und Humor

"Sprachsysteme führen uns immer wieder vor, wie problematisch Kommunikation ist - ständig gibt es Missverständnisse", sagt Lenke. "Verständigung ist gemeinsame kommunikative Arbeit." Einer seiner Tricks: Er programmiert seine Maschinen so, dass sie sich nie zu sicher sind, dass sie das Gegenüber aussprechen lassen, dass sie oft nachfragen und dass sie das Gehörte umformulieren, als Gegenprobe sozusagen.

Ich fühle mich ertappt. Im Gespräch bin ich oft ungeduldig. Vielleicht kann ich von meinen Sprachprogrammen etwas lernen, gerade durch ihre Beschränktheit?

"Cortana, ist es zu spät zum Einkaufen?"
"Wo möchtest du hin?", fragt sie verständnislos, gefangen in der Annahme, dass ich navigieren will.

Falsche Domäne. Früher hätte ich nun genervt, laut und langsam wiederholt: IST-ES-ZU-SPÄT-ZUM-EINKAUFEN?!?

Aber eine laute, langsame Stimme passt nicht ins statistische Erwartungsraster. Übertriebene Klarheit kann sogar stören. Ich formuliere also lieber um, was ich meine. Und siehe, ich werde erhört:

"Cortana, sind die Läden noch offen?"
"Es gibt zehn Einkaufspassagen, die jetzt geöffnet haben."

Seit ich ein Bild von ihrem Innenleben habe, verstehe ich mich viel besser mit Cortana, Siri, Alexa und Dragon. Kommunikation braucht Fantasie, Geduld und Humor. Maschinen sind eben auch nur Menschen: Hunderte Entwickler wie Nils Lenke, die im Hintergrund reden und reden lassen.

Die gemeinsame Reise hat sich gelohnt. Mittlerweile verzeihe ich meinen plappernden Rechnern nicht nur ihre Rechenschwäche. Sondern sogar ihren Humor.

"Cortana, was ist dein Lieblingsessen?"
"Ich achte auf meine Ernährung. Höchstens ab und zu ein paar Bytes. Na gut, bei Heißhunger auch mal einen Megabyte."
Aus SPIEGEL Wissen 3/2015

Mehr zum Thema
Newsletter
Games und Gadgets: Die Welt digital


Forum - Diskutieren Sie über diesen Artikel
insgesamt 9 Beiträge
Alle Kommentare öffnen
Seite 1
Antaeus79 05.07.2015
1. Wie intelligent sind diejenigen, die sie nutzen?
Sollte es wirklich jemanden geben, den es wundert, daß Maschinen nicht zur Konversation fähig sind? Ein Compiler weigert sich, Quellcode zu übersetzen, wenn in einer von tausenden Zeilen "offensichtlich" ein Semikolon fehlt (was ein Zwölfjähriger erkennen kann). Trotzdem ist die Mähr von künstlicher Intelligenz nicht auszurotten, ebensowenig wie der für mich nicht nachvollziehbare Wunsch einiger Menschen, Halbleiterplatinen Humor beizubringen oder die Interpretation von Gesichtsausdrücken. Maschinen sind nicht charmant, und daß man bisweilen den Eindruck haben kann, sagt mehr über die Menschen aus als über die Maschinen. Siri kann nicht philosophieren, wir tun es -- zumindest dem Anscheine nach -- indem wir aus jedem noch so vagen Satz das herausdeuten, was wir erwarten. Es gibt Menschen, die ihre eigene Überforderung mit Geist, Emotion, Humor, Liebe etc. zu überkommen versuchen, indem sie diese Aspekte des Lebens mechanisieren und technisieren (oft unter dem Deckmantel der Wissenschaft). Ob sie von Siri Beistand erhalten, kann ich abwarten.
pullimann 05.07.2015
2. In Memorian Peer Augustinski
Aus Jonas der letzte Detektiv (Hörspielserie von Michael Koser): Sam (gesprochen von P.A.) der überverbale Computer ------------------------------------------------------------- Jonas: Keine Sprüche, Sam. Rat und Tat, das ist ein Befehl. Sam: Befehl, jawoll. Sieh nach unten. Jonas: Tu ich, und? Sam: Ja, was erblicken dero Scharfsicht entzündete äh entzückende Augen? Jonas: Häh? Meine Schuhe. Sam: Gott, ist der lahm. Unter den Schuhen. Jonas: Äh, da ist ein Gullydeckel. Sam: Aha. Heb ihn hoch, roll ihn weg. Jonas: So, und jetzt seh’ ich eine senkrechte Röhre, mit Sprossen, da... Sam: Da steigst du munter schnell mal runter.
BettyB. 05.07.2015
3. Nicht lustig...
Ich denke gerade an meinen Nachbarn...
Newspeak 05.07.2015
4. ...
"Siri, was ist der Sinn des Lebens?" "Alles spricht dafür, dass es Schokolade ist." Immerhin, 2000 Jahre abendländische Philosophie sind auch zu keiner größeren Einsicht gelangt. Nebenbei, es gibt gar nicht so wenige Menschen, die ähnlich "programmiert" antworten, wie Siri und ähnliche Systeme. Das hat dann allerdings wirklich nichts mit der künstlichen Intelligenz von Siri zu tun. Es ist doch so...mit Rechenleistung allein kann man perfekte Gespräche simulieren. Theoretisch könnte man sich ja vorstellen, daß man einfach nur eine riesige Liste mit allen Antworten auf alle Fragen erstellt und die entsprechend abruft. Das hat absolut nichts mit Intelligenz zu tun. Es wird sich tatsächlich erst (und dann sehr schnell sehr viel) ändern, wenn man dem Rechner das "Denken" beibringt. Denken als Grundlage von Verstehen. Das wäre auch noch mal ein gigantischer Sprung bezüglich Suchmaschinen. Oder Computerbedienung. So wie bei Star Trek...man sagt dem Rechner, was man haben will und er erledigt es weitgehend autonom. Das wäre wirklich cool. Siri bleibt am Ende ein kleines Wunder für den Alltag, lustig, aber am Ende nur eine Bequemlichkeit, kein echter Fortschritt. Die meisten Menschen finden Siri nach einer Weile, d.h. nach der ersten Phase des Ausprobierens und Freuens, wahrscheinlich dann auch langweilig.
hatersgonnahate 05.07.2015
5. Ot
Ja es sind ganz tolle dinger. Doch um inhaltlich das thema zu verfehlen: "Her" ist definitiv keine komödie, hab gehört solche filme sind nicht verdammt traurig. Und zu Cortana: haben sie sich mal die Cortana aus Halo:CE (nicht die anniversary) angesehen? Sexbombe ist anders. Aber sie ist die einzige weibliche figur, was zu dem trugschluss führen könnte ;) Mein Senf
Alle Kommentare öffnen
Seite 1

© SPIEGEL Wissen 3/2015
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.