Christian Stöcker

Sprechende Computer Karl Klammers gefährliche Kinder

Google hat diese Woche für weltweites Aufsehen gesorgt. Seine Digitalassistenten können jetzt telefonieren - so gut, dass wir sie für Menschen halten. Wo führt das hin? Wissenschaftler wissen es schon.
Foto: Besjunior/ Getty Images/iStockphoto

" Für das menschliche Gehirn macht es kaum einen Unterschied, ob es mit einer Maschine spricht - selbst, wenn diese Maschine über sehr schlechtes Sprachverständnis und schlechte Sprachausgabe verfügt - oder mit einer Person."

Clifford Nass und Scott Brave, "Wired for Speech" (2005)

Die Interessanteste der Demonstrationen, mit denen Google-Chef Sundar Pichai diese Woche sein Publikum verblüffte, war nicht der allerorten zitierte automatisierte Anruf bei einem Friseursalon. Sondern der gescheiterte Versuch, einen Tisch in einem Restaurant zu reservieren.

Die Stimme des in Wahrheit aus Software bestehenden Google-Assistenten bat um einen Tisch am siebten des Monats. Die Dame am anderen Ende der Leitung, die offenbar in einem lauten Restaurant ans Telefon gegangen war, verstand nicht richtig. Sie überhörte Tag und Datum und wollte stattdessen eine Reservierung für sieben Personen entgegennehmen. Schließlich endete das Gespräch ohne Erfolg. Die Dame am Telefon fand, eine Reservierung sei für den gewünschten Termin gar nicht nötig.

Das Verrückte ist, auf wessen Seite man steht

Das Verrückte an dieser Konversation, die man sich hier anhören kann , ist nicht die Tatsache, dass ein Mensch mit einem Computer spricht, ohne es zu merken. Das Verrückte ist, dass man als Zuhörer gar nicht anders kann, als den "Anrufer" ein bisschen zu bemitleiden. Er wirkt ungleich kompetenter als die Dame im Restaurant, erlebt im Gespräch aber eine Frustration nach der anderen - und bleibt trotzdem ruhig und höflich. Die Tatsache, dass er keine Reservierung bekommt, quittiert er mit einem freundlichen "Oh, ich verstehe. Danke."

Als Zeuge des Dialogs ist man emotional auf seiner Seite. Dabei gibt es ihn gar nicht. Das eigentliche Wunder ist die automatische, nicht kontrollierbare Reaktion, die Stimmen in unseren Köpfen auslösen.

Wenn ein Etwas uns mit einer menschlichen Stimme vorgaukelt, dass in Wahrheit ein Jemand spricht, nehmen wir dieses Etwas auch als Jemand wahr. Selbst dann, wenn wir es besser wissen. Es besser zu wissen, das hielten Clifford Nass und Scott Brave schon 2005 in ihrem eingangs zitierten Buch zum Thema Sprach-Interfaces fest, reicht nicht, "um die historisch angemessene Aktivierung sozialer Beziehungen durch Stimmen zu überwinden". Warum "historisch angemessen"? Weil man sich in der bisherigen Menschheitsgeschichte darauf verlassen konnte, dass man mit einem Menschen sprach, wenn man eine menschliche Stimme hörte. Diese Zeiten sind vorbei.

"Zuneigung, Vertrauen, Effizienz, Lernen und Kaufverhalten steigern"

Nass, Professor in Stanford, war einer der Pioniere bei der Forschung zur Mensch-Maschine-Interaktion. Unter anderem erfand er den Vorläufer des berüchtigten Karl Klammer. Nass wird die Alltagsauswirkungen seiner Prophezeiungen zum Thema Sprach-Interfaces nicht mehr erleben, er ist 2013 mit 55 Jahren gestorben. Wie mächtig solche Schnittstellen sein würden, wusste er indes schon vor 13 Jahren: Designer würden sich "die automatischen und mächtigen Reaktionen zunutze machen, die alle Stimmen hervorrufen, ob menschlich oder maschinell erzeugt, um Zuneigung, Vertrauen, Effizienz, Lernen und sogar Kaufverhalten zu steigern", heißt es in "Wired for Speech".

Zur Illustration ein denkbares Szenario: Stellen Sie sich vor, jemand baut einen Enkeltrick-Roboter, der Tausende von Rentnern gleichzeitig anrufen kann. Ein paar von ihnen werden auf die Masche hereinfallen, und bei denen holt man sich dann Geld. Die Kosten für all die Fehlversuche sind minimal. Die Logik des Spammers - die Masse macht's - steht plötzlich auch herkömmlichen Trickbetrügern offen. Schon bald könnten die nigerianischen Prinzen mit dem großen Erbe direkt anrufen, statt erst E-Mails zu schreiben.

Skype-Gespräche mit gefälschten Gesprächspartnern

Der nächste Schritt der neuen, digitalen Scheinrealitäten, die uns bevorstehen, sind nicht erkennbare Kopien menschlicher Stimmen. Das Start-up Lyrebird  erlaubt es schon jetzt, auf Basis von einigen wenigen Aufnahmen eine digitale Kopie der eigenen Stimme zu erzeugen. Auf der Unternehmensseite kann man das kostenlos ausprobieren. Es funktioniert bislang nur für englischsprachige Sätze, aber dort sind die Resultate verblüffend: Mit einer Minimalstichprobe von einer Minute eingelesenem Text erzeugt das System eine etwas monoton intonierende, aber durchaus erkennbare Version der eigenen Stimme. Sie kann anschließend beliebige andere Sätze vortragen.

Probieren Sie es mal aus, es wird Ihre Vorstellung von der Zukunft von Propaganda und Desinformation verändern. Maschinelles Lernen erzeugt im Moment ein scheinbares Wunder nach dem anderen.

Mittlerweile lassen sich bekanntlich auch Videobilder mit vergleichsweise geringem Aufwand fälschen und auch diese Technik wird in den nächsten Monaten und Jahren rapide besser werden . Eine gefälschte Aufzeichnung ist eine Sache - gefälschte Live-Gespräche mit dem scheinbar realen Gesicht des Gegenübers auf dem Bildschirm und dessen scheinbarer Originalstimme werden ungleich mächtiger sein.

Das Recht zu wissen, ob man mit einer Maschine spricht

Vor knapp anderthalb Jahren, als in Berlin besorgt über Social Bots und die Implikationen für politische Propaganda gesprochen wurde, gab es im Bundestag zwei Anhörungen, an denen ich teilnehmen durfte. Ich habe damals unter anderem gesagt, dass wir als Mitglieder dieser Gesellschaft das Recht haben sollten, zu wissen, wann wir mit einer Maschine sprechen (pdf ) - nicht wegen Bots bei Twitter, sondern wegen künftiger technologischer Entwicklungen.

Diese Entwicklungen sind jetzt da - mal wieder noch schneller, als man es für möglich gehalten hätte. Menschen werden sich bald massenhaft maschinellen Lügnern gegenübersehen. Es wird höchste Zeit für Robotergesetze - und eines davon sollte sein, dass eine Maschine verpflichtet ist, sich zu Beginn eines Gesprächs als solche zu erkennen zu geben.

Eine andere, weniger gravierende Gefahr ist eine, die schon Karl Klammer sichtbar gemacht hat. Die nämlich, dass uns all die neuen digitalen Redner unheimlich auf die Nerven gehen werden. Clifford Nass hat über Karl Klammer einmal gesagt, der sei "passiv-aggressiv" gewesen, "im schlimmsten Fall schlicht feindselig". Und weiter: "Wir wissen, wie wir mit solchen Leuten umgehen: Wir hassen sie."