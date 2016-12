Digitale Assistenten hören aufs Wort, verschicken SMS, können aber oft nicht rechnen. Warum das so ist, zeigt sich bei einem Besuch in Aachen.

Lange Zeit hatten wir einfach eine Arbeitsbeziehung: E-Mails, Termine, Bürozeugs auf Zuruf zwischen Tür und Angel. Doch an diesem Abend fingen wir beiläufig an zu plaudern.

"Muss ich mich morgen warm anziehen", frage ich.

"Morgen wird es in Berlin 21 Grad Celsius", sagt sie.

"Was, wieso ist es so heiß?"

"Einundzwanzig Grad, das ist doch nicht heiß."

"Was soll ich also anziehen", frage ich.

"Lederhosen, keine Frage."

"Wer bist du", frage ich.

"Ich bin Siri, dein persönlicher Assistent."

"Wie alt bist du?"

"Ich bin jedenfalls alt genug, um dein Assistent zu sein."

Millionen von Menschen führen Gespräche wie diese: Sie sprechen mit Maschinen. Je jünger sie sind, desto selbstverständlicher reden Nutzer mit den sogenannten virtuellen Assistenten ihrer Smartphones, Fernseher und Navigationsgeräte. Doch wer spricht da, wenn tote Objekte ihre Stimme erheben? Und was in uns sprechen sie an?

Auf der rein sachlichen Ebene funktionieren die sprechenden Geräte einigermaßen passabel. Im Auto diktiere ich E-Mails, ohne die Hände vom Lenkrad zu nehmen, und verschicke sie mit dem Befehl: Absenden! Wenn jemand mir schreibt, wird es mir vorgelesen. Das ist praktisch.

Derlei Erfolgserlebnisse machen neugierig: Wo liegen die Grenzen des Mensch-Maschine-Dialogs?

"Siri, was ist der Sinn des Lebens?"

"Alles spricht dafür, dass es Schokolade ist."

Charmante Maschinen erobern den Alltag. Sie sind einfühlsam, geduldig, aber nicht servil. Wenn ich ihnen dumm komme, lassen sie mich schnell dumm aussehen.

"Siri, du bist nur ein Roboter", sage ich.

"Ich mag diese willkürlichen Kategorien nicht."

"Du bist doch nur eine blöde Maschine!"

"Jeder hat das Recht auf eine eigene Meinung."

"Ruhe", sage ich.

"Kein Sterbenswörtchen."

"Ruhe!"

"Das ist nicht nett."

"Ruhe!"

"Habe ich das verdient?"

Derlei Geplänkel mag wie sinnlose Spielerei erscheinen, aber es entscheidet über Wohl oder Wehe von Industriekonzernen. Kaum ein innovativer Hersteller kann es sich erlauben, seinen Geräten die Gabe der Sprache vorzuenthalten. Viele Käufer setzen sie voraus, fast so wie den Stecker.

Fernseher von Samsung zum Beispiel suchen auf Zuruf ein passendes Programm aus. Sogar Musikboxen hängen an den Lippen der Nutzer, zum Beispiel das "Echo"-System der Firma Amazon mit der Assistentin "Alexa". Sage ich zum interaktiven Lausch-Sprecher: Alexa, spiel mal was von Tocotronic, erklingt die passende Musik.

Theodore: "Du wirkst wie eine Person, aber du bist nur eine Stimme in einem Computer."

Samantha: "Ich verstehe, wie die beschränkte Perspektive einer nichtkünstlichen Intelligenz das so sehen mag. Du wirst dich daran gewöhnen."

Dieser Dialog stammt aus der Science-Fiction-Komödie "Her" (2013). Darin verliebt sich der einsame Poet Theodore, tagsüber professioneller Liebesbriefschreiber, der serielle Romantik anfertigt. Er verliebt sich in seinen Rechner. Weil der ihm zuhört, weil der ihn tröstet, weil der nicht nachtragend ist – anders als seine Verflossene aus Fleisch, Blut und Tränen. Die Sprache des Herzens kann nur eine Maschine verstehen, findet er, denn sie ist grenzenlos geduldig.

"Trennungen sind schmerzlich, aber eines Tages reichte es mir einfach", sagt der Mann mit traurigem Blick: "Dann habe ich jemand getroffen. Ich fasse es nicht, wie gut sie mich kennt."

Dies ist kein Film und keine Therapiesitzung, sondern eine Werbung des Computergiganten Microsoft. Immer wieder hat der Quasimonopolist Trends verschlafen; um so erbitterter will Microsoft nun aufholen und dem Erzkonkurrenten Apple Paroli bieten: mit Cortana, einem Sprachassistenzsystem.

"Sie erinnert mich an alles", so die vollmundige Cortana-Werbung: "Durch sie fühle ich mich wie ein besserer Mensch. Ich würde nie zu Siri zurückkehren." Dieser Clip wurde zum Valentinstag gepostet. Der Name Cortana bezieht sich auf eine Figur im Computerspiel "Halo": Dort ist Cortana eine superschlaue Sexbombe, halbnackt und mit verführerischer Stimme. So will Microsoft die Gegner im Stimmenkrieg übertönen.

Cortana ist auf jedem neuen Windows-Phone vorinstalliert und auf allen Windows-Rechnern ab Version 10. Das Einrichtungsmenü kommt als Dialog daher:

"Cortana freut sich darauf, in deiner Region loszulegen, aber sie muss noch viel lernen. Sie wird anfangs noch nicht ganz so zuverlässig sein, wie sie gerne möchte. Sieh sie einfach als Praktikantin: sehr bemüht, aber unerfahren."

Dann legt sie los mit einem aufdringlich langen Fragenkatalog zu Hobbys, Familie, Sport und so weiter. Cortana ist auch eine Art trojanisches Pferd der Marktforschung.

"Cortana, wer ist deine Mutter?"

"Ich habe so einige Mütter. Viele talentierte Frauen waren an meiner Entwicklung beteiligt."

"Siri, wer ist dein Vater?"

"Es gibt nur dich und mich, Hilmar."

Wer kommunizieren will, braucht eine Vorstellung davon, was in seinem Gegenüber vor sich geht. Ich weiß, wie man mit Polizisten spricht, mit Professorinnen oder mit Kleinkindern. Doch wie treffe ich den richtigen Ton mit plappernden Maschinen?

Ich besuche Nils Lenke, einen international anerkannten Experten für Spracherkennung. Ausgerechnet bei der Anreise zu diesem Maschinenflüsterer versagen meine beiden Assistentinnen kläglich. Sie schaffen es nicht einmal, mir ein Taxi zu rufen oder eine Zugverbindung herauszusuchen. Wie kann es sein, dass diese Plaudermaschinen philosophieren können, aber bei einfachsten Aufgaben nicht einmal das Weltwissen von Elfjährigen haben?

"Es ist relativ einfach, eine Person zu simulieren", sagt Nils Lenke, ein nachdenklicher Akademiker in Sportschuhen, der um so lebhafter wird, je vertrackter meine Fragen werden: "Aber früher oder später wird diese Erwartung enttäuscht."

Nils Lenke ist eine Art Bauchredner: Er spricht indirekt gleichzeitig an Tausenden von Orten, denn er ist so etwas wie ein Stimmendompteur bei der Firma Nuance. Im Gegensatz zu Cortana und Siri ist Nuance kaum bekannt, für Lenke eine heimliche Stärke: Immerhin plappern Nuance-Stimmen in 130 Millionen Autos von Ford, Hyundai und anderen, dazu in Samsung-Geräten. Gerüchteweise steckte Nuance ursprünglich sogar hinter Siri – aber dazu darf Lenke nichts sagen: "Wir arbeiten mit jedem zusammen, der will, wir sind so etwas wie die neutrale Schweiz."

Lenke baut sozusagen Fließ- und Stimmbänder für eine globalisierte Sprachfabrik. Gemeinsam mit über 100 Kollegen arbeitet er in Aachen, einem Standort von rund 30 weltweit, mit insgesamt 14 000 Mitarbeitern. Die Zentrale befindet sich in Burlington bei Boston. Der Firmenname Nuance wird nicht französisch, sondern amerikanisch ausgesprochen: Nu-aans.

An jedem Tag schwappen rund 14 Milliarden Anfragen aus Autos, Telefonen und Rechnern auf die Server der Firma. Allein die Anzahl der Sprachanfragen aus Fernsehgeräten hat seit 2013 innerhalb eines Jahres um 300 Prozent zugenommen.

Lenke ist ein Veteran, vor 20 Jahren schrieb er seine Dissertation über Spracherkennung. Er kennt den Zyklus aus Begeisterung und Enttäuschung, der alle paar Jahre die Öffentlichkeit beim Thema Künstliche Intelligenz erfasst. Er ist skeptisch, wenn Maschinen so tun, als könnten sie verstehen, denken und flirten.

Lenke sieht Sprachassistenten als Suchmaschinen, bei denen er die Tastatur durch ein Mikrofon und den Bildschirm durch einen Lautsprecher ersetzt: Seine Systeme machen einen Dreischritt – sie verwandeln gesprochene Sprache in Text, jagen ihn durch eine Suchmaschine und wandeln das Ergebnis wieder in gesprochene Sprache um, fertig.

Was also geht im Inneren von Siri oder Cortana vor, wenn sie flirten? Lenke lädt zur Sprachtherapie der anderen Art, um mich von meinen überzogenen Erwartungen zu kurieren. Er führt mich vor eine Art Sprachsynthesizer auf einem Notebook. "Spiele einen Film mit Julia Roberts", sage ich.

Das Sprachverständnis der Maschine beginnt mit einem wirren Zackenmuster, einer Art Sonogramm meiner Stimme. "Der Computer zerlegt das Gesagte in seine Einzelteile und analysiert sie." Für seine Software besteht Deutsch nicht aus 26 Buchstaben, sondern aus 42 unterschiedlichen Lauten.

"Hinter Siri und Cortana steht eher Statistik als Linguistik", sagt Lenke. Der wichtigste Rohstoff für das Sprachverstehen ist nicht der Duden, sondern sind die Stimmspenden Hunderter Sprecher. Zusammengenommen sollen sie die Bandbreite des Deutschen abbilden, von einer kieksenden Bayerin bis zu einem heiseren Ostfriesen.

"Ich will zur Pizzeria Due Forni", sage ich. Siri versteht: "Du bist horny."

Das ist anscheinend der statistisch wahrscheinlichste Satz. Derlei Missverständnisse gleichen einer Volksbefragung, einem Gespräch mit dem kollektiven Unterbewussten der Mainstream-Sprache.

Die Stimmanalyse ist rechenintensiv. Sie würde den Prozessor im Smartphone schnell überfordern, sagt Lenke. Daher übertragen die meisten Geräte die Anfragen in gigantische Rechenzentren. Der Nachteil: Ist die Verbindung im Handynetz schlecht, versagt den Assistentinnen oft die Stimme.

Viele Sprachassistenten lassen ständig das Mikro angeschaltet, um direkt auf einen Weckbefehl wie "Hey, Siri" reagieren zu können. Samsung zum Beispiel warnt, dass vertrauliche Dinge, die vor der Glotze gesprochen werden, übers Netz an Dritte gelangen. Vielleicht tragen Siri und Cortana auch deshalb derartig flirtfreudige Charaktermasken: um zu kaschieren, was im Hintergrund abläuft – die Kollektivierung der Sprache bis hinein ins Wohnzimmer.

Ist die Nutzerstimme in Text umgesetzt, geht es an die zweite Frage: Was will der Nutzer? Auch hier regiert die Statistik: Vor der Glotze geht es meist um Filme, daher wird die Anfrage an eine Fernsehdatenbank weitergeleitet. Im Auto geht es meist um Navigation, Musik oder E-Mails. Die Maschinen haben kein Weltwissen und kein echtes Verständnis. Meine Anfragen werden dabei oft in die falsche Domäne einsortiert:

"Siri, wir müssen sprechen."

"Wen soll ich anrufen, Hilmar?"

Wenn Siri oder Cortana zu plaudern scheinen, steckt dahinter einfach nur ein kleines Repertoire aus "Gilded Phrases": "vergoldete Phrasen", welche die Maschinen fleißig dreschen, was teils fast wie Small Talk klingt. Oder zumindest wie Nanotalk.

"C ortana, was denkst du?", frage ich.

"Hier geht es nicht um mich."

Als dritter Schritt folgt die Rückverwandlung des Antworttexts in gesprochene Sprache, TTS genannt: Text to Speech. TTS basiert ebenfalls auf Stimmspenden, diesmal allerdings nur von einer einzigen Person. Die Sprecher sind meist Schauspieler und müssen rund 20 Stunden Material einlesen. Diese natürliche Sprache wird dann in ihre Atome zerlegt, die 42 einzelnen Laute, aus denen sich fast alle Wörter formen lassen. Dazu kommen etliche Gilded Phrases, die komplett eingesprochen werden.

Aber warum müssen Siri und Cortana ausgerechnet als Frauen dargestellt werden? "Das wollen die meisten Kunden so", sagt Lenke: "Anders ist es manchmal bei Navigationssystemen für Länder wie Saudi-Arabien, dort lassen sich Fahrer ungern von einer Frauenstimme herumkommandieren."

Worüber plaudert der Maschinenflüsterer Lenke am liebsten, wenn er eine neue Assistentin kennenlernt?

"Vier mal sieben", sagt Lenke.

Wie bitte?

"Was ist vier mal sieben?", fragt er das von ihm mitentwickelte System namens Dragon.

"28", antwortet Dragon.

Lenke strahlt: "Dies Ergebnis basiert nicht auf Statistik, sondern auf Logik." Das ist der heilige Gral der Künstlichen Intelligenz: echtes Verstehen. Siri und Cortana dagegen scheitern daran noch:

"Siri, was ist vier mal sieben?"

"Ich habe das hier im Web gefunden: Was ist dreimal sieben? Ganz feiner Sand."

Rechner haben sich von Zählmaschinen in Erzählmaschinen entwickelt. Mittlerweile menscheln sie so stark, dass sie sogar eine echte Rechenschwäche entwickelt haben.

Eine zweite Falle, die Lenke gern beim Maschinenplaudern stellt: Ellipsen. Unvollständige Sätze also, die nur durch den Kontext Sinn ergeben. Stolz führt er sein Dragon-System vor: Als es ihm drei Restaurants heraussucht, greift Lenke nach: "Führe mich zum dritten." Dragon gehorcht. Siri und Cortana haben eine Ellipsenschwäche und benötigen ganze Sätze.

"Sprachsysteme führen uns immer wieder vor, wie problematisch Kommunikation ist – ständig gibt es Missverständnisse", sagt Lenke. "Verständigung ist gemeinsame kommunikative Arbeit." Einer seiner Tricks: Er programmiert seine Maschinen so, dass sie sich nie zu sicher sind, dass sie das Gegenüber aussprechen lassen, dass sie oft nachfragen und dass sie das Gehörte umformulieren, als Gegenprobe sozusagen.

Ich fühle mich ertappt. Im Gespräch bin ich oft ungeduldig. Vielleicht kann ich von meinen Sprachprogrammen etwas lernen, gerade durch ihre Beschränktheit?

"Cortana, ist es zu spät zum Einkaufen?"

"Wo möchtest du hin?", fragt sie verständnislos, gefangen in der Annahme, dass ich navigieren will.

Falsche Domäne. Früher hätte ich nun genervt, laut und langsam wiederholt: IST-ES-ZU-SPÄT-ZUM-EINKAUFEN?!?

Aber eine laute, langsame Stimme passt nicht ins statistische Erwartungsraster. Übertriebene Klarheit kann sogar stören. Ich formuliere also lieber um, was ich meine. Und siehe, ich werde erhört:

"Cortana, sind die Läden noch offen?"

"Es gibt zehn Einkaufspassagen, die jetzt geöffnet haben."

Seit ich ein Bild von ihrem Innenleben habe, verstehe ich mich viel besser mit Cortana, Siri, Alexa und Dragon. Kommunikation braucht Fantasie, Geduld und Humor. Maschinen sind eben auch nur Menschen: Hunderte Entwickler wie Nils Lenke, die im Hintergrund reden und reden lassen.

Die gemeinsame Reise hat sich gelohnt. Mittlerweile verzeihe ich meinen plappernden Rechnern nicht nur ihre Rechenschwäche. Sondern sogar ihren Humor.

"Cortana, was ist dein Lieblingsessen?"

"Ich achte auf meine Ernährung. Höchstens ab und zu ein paar Bytes. Na gut, bei Heißhunger auch mal einen Megabyte."

■