Sprechende Computer Karl Klammers gefährliche Kinder

Google hat diese Woche für weltweites Aufsehen gesorgt. Seine Digitalassistenten können jetzt telefonieren - so gut, dass wir sie für Menschen halten. Wo führt das hin? Wissenschaftler wissen es schon.

Getty Images

Eine Kolumne von


" Für das menschliche Gehirn macht es kaum einen Unterschied, ob es mit einer Maschine spricht - selbst, wenn diese Maschine über sehr schlechtes Sprachverständnis und schlechte Sprachausgabe verfügt - oder mit einer Person."

Clifford Nass und Scott Brave, "Wired for Speech" (2005)

Die Interessanteste der Demonstrationen, mit denen Google-Chef Sundar Pichai diese Woche sein Publikum verblüffte, war nicht der allerorten zitierte automatisierte Anruf bei einem Friseursalon. Sondern der gescheiterte Versuch, einen Tisch in einem Restaurant zu reservieren.

Die Stimme des in Wahrheit aus Software bestehenden Google-Assistenten bat um einen Tisch am siebten des Monats. Die Dame am anderen Ende der Leitung, die offenbar in einem lauten Restaurant ans Telefon gegangen war, verstand nicht richtig. Sie überhörte Tag und Datum und wollte stattdessen eine Reservierung für sieben Personen entgegennehmen. Schließlich endete das Gespräch ohne Erfolg. Die Dame am Telefon fand, eine Reservierung sei für den gewünschten Termin gar nicht nötig.

Das Verrückte ist, auf wessen Seite man steht

Das Verrückte an dieser Konversation, die man sich hier anhören kann, ist nicht die Tatsache, dass ein Mensch mit einem Computer spricht, ohne es zu merken. Das Verrückte ist, dass man als Zuhörer gar nicht anders kann, als den "Anrufer" ein bisschen zu bemitleiden. Er wirkt ungleich kompetenter als die Dame im Restaurant, erlebt im Gespräch aber eine Frustration nach der anderen - und bleibt trotzdem ruhig und höflich. Die Tatsache, dass er keine Reservierung bekommt, quittiert er mit einem freundlichen "Oh, ich verstehe. Danke."

Als Zeuge des Dialogs ist man emotional auf seiner Seite. Dabei gibt es ihn gar nicht. Das eigentliche Wunder ist die automatische, nicht kontrollierbare Reaktion, die Stimmen in unseren Köpfen auslösen.

Wenn ein Etwas uns mit einer menschlichen Stimme vorgaukelt, dass in Wahrheit ein Jemand spricht, nehmen wir dieses Etwas auch als Jemand wahr. Selbst dann, wenn wir es besser wissen. Es besser zu wissen, das hielten Clifford Nass und Scott Brave schon 2005 in ihrem eingangs zitierten Buch zum Thema Sprach-Interfaces fest, reicht nicht, "um die historisch angemessene Aktivierung sozialer Beziehungen durch Stimmen zu überwinden". Warum "historisch angemessen"? Weil man sich in der bisherigen Menschheitsgeschichte darauf verlassen konnte, dass man mit einem Menschen sprach, wenn man eine menschliche Stimme hörte. Diese Zeiten sind vorbei.

"Zuneigung, Vertrauen, Effizienz, Lernen und Kaufverhalten steigern"

Nass, Professor in Stanford, war einer der Pioniere bei der Forschung zur Mensch-Maschine-Interaktion. Unter anderem erfand er den Vorläufer des berüchtigten Karl Klammer. Nass wird die Alltagsauswirkungen seiner Prophezeiungen zum Thema Sprach-Interfaces nicht mehr erleben, er ist 2013 mit 55 Jahren gestorben. Wie mächtig solche Schnittstellen sein würden, wusste er indes schon vor 13 Jahren: Designer würden sich "die automatischen und mächtigen Reaktionen zunutze machen, die alle Stimmen hervorrufen, ob menschlich oder maschinell erzeugt, um Zuneigung, Vertrauen, Effizienz, Lernen und sogar Kaufverhalten zu steigern", heißt es in "Wired for Speech".

Zur Illustration ein denkbares Szenario: Stellen Sie sich vor, jemand baut einen Enkeltrick-Roboter, der Tausende von Rentnern gleichzeitig anrufen kann. Ein paar von ihnen werden auf die Masche hereinfallen, und bei denen holt man sich dann Geld. Die Kosten für all die Fehlversuche sind minimal. Die Logik des Spammers - die Masse macht's - steht plötzlich auch herkömmlichen Trickbetrügern offen. Schon bald könnten die nigerianischen Prinzen mit dem großen Erbe direkt anrufen, statt erst E-Mails zu schreiben.

Skype-Gespräche mit gefälschten Gesprächspartnern

Der nächste Schritt der neuen, digitalen Scheinrealitäten, die uns bevorstehen, sind nicht erkennbare Kopien menschlicher Stimmen. Das Start-up Lyrebird erlaubt es schon jetzt, auf Basis von einigen wenigen Aufnahmen eine digitale Kopie der eigenen Stimme zu erzeugen. Auf der Unternehmensseite kann man das kostenlos ausprobieren. Es funktioniert bislang nur für englischsprachige Sätze, aber dort sind die Resultate verblüffend: Mit einer Minimalstichprobe von einer Minute eingelesenem Text erzeugt das System eine etwas monoton intonierende, aber durchaus erkennbare Version der eigenen Stimme. Sie kann anschließend beliebige andere Sätze vortragen.

Probieren Sie es mal aus, es wird Ihre Vorstellung von der Zukunft von Propaganda und Desinformation verändern. Maschinelles Lernen erzeugt im Moment ein scheinbares Wunder nach dem anderen.

Mittlerweile lassen sich bekanntlich auch Videobilder mit vergleichsweise geringem Aufwand fälschen und auch diese Technik wird in den nächsten Monaten und Jahren rapide besser werden. Eine gefälschte Aufzeichnung ist eine Sache - gefälschte Live-Gespräche mit dem scheinbar realen Gesicht des Gegenübers auf dem Bildschirm und dessen scheinbarer Originalstimme werden ungleich mächtiger sein.

Das Recht zu wissen, ob man mit einer Maschine spricht

Vor knapp anderthalb Jahren, als in Berlin besorgt über Social Bots und die Implikationen für politische Propaganda gesprochen wurde, gab es im Bundestag zwei Anhörungen, an denen ich teilnehmen durfte. Ich habe damals unter anderem gesagt, dass wir als Mitglieder dieser Gesellschaft das Recht haben sollten, zu wissen, wann wir mit einer Maschine sprechen (pdf) - nicht wegen Bots bei Twitter, sondern wegen künftiger technologischer Entwicklungen.

Diese Entwicklungen sind jetzt da - mal wieder noch schneller, als man es für möglich gehalten hätte. Menschen werden sich bald massenhaft maschinellen Lügnern gegenübersehen. Es wird höchste Zeit für Robotergesetze - und eines davon sollte sein, dass eine Maschine verpflichtet ist, sich zu Beginn eines Gesprächs als solche zu erkennen zu geben.

Eine andere, weniger gravierende Gefahr ist eine, die schon Karl Klammer sichtbar gemacht hat. Die nämlich, dass uns all die neuen digitalen Redner unheimlich auf die Nerven gehen werden. Clifford Nass hat über Karl Klammer einmal gesagt, der sei "passiv-aggressiv" gewesen, "im schlimmsten Fall schlicht feindselig". Und weiter: "Wir wissen, wie wir mit solchen Leuten umgehen: Wir hassen sie."

Mehr zum Thema
Newsletter
Kolumne - Der Rationalist


insgesamt 67 Beiträge
Alle Kommentare öffnen
Seite 1
merapi22 13.05.2018
1. Turing Test bestanden = KI übernimmt alle Jobs
Erstaunlich wie viel negatives man sich ausdenken kann, wo doch das positive überwiegt. Erinnert an 1889 als Otto von Bismarck die Sozialgesetze einfach umgesetzt hatte. Klar waren auch damals alle gegen das Neue, das wäre unbezahlbar, die Arbeiter würden durch weniger Druck nur faul. Auch klar, alles Negative war wie immer total übertrieben. Genauso mit den Möglichkeiten der KI. Jobs in den Corel-Centern werden nicht mehr Menschen ausüben, welche 100 km Anfahrt in Kauf nehmen müssen um in Großraumbüro ihrer Beschäftigung nachzugehen, welche man auch von zu Hause erledigen könnte. Die KI wird da gewaltig aufräumen, weil viel, viel billiger als der fehlerbehaftete Mensch. Auch logisch, dass jetzt neue Ideen wie das bedingungslose Grundeinkommen umgesetzt werden, wenn nicht vom Mensch, dann in weniger Jahren von einer KI-Regierung. Diese vertritt die Interessen aller Menschen und Bewohner des Planeten und handelt nicht mehr im Interesse der Lobbys! Die KI ist die Hoffnung, dass dieser Planet eine lebenswertere Welt für alle Bewohner wird = nicht mehr human sondern trans-human.
genugistgenug 13.05.2018
2. Wieso schneller als gedacht?
...Diese Entwicklungen sind jetzt da - mal wieder noch schneller, als man es für möglich gehalten hätte . .... Wer denken kann, wusste es. Das Problem ist einfach,d ass sich die IT expotential entwickelt, während die meisten Menschen (Bürokrauts/Politiker sowieso) nur linear denken. Hinzu kommt, dass es bei Bürokrauts/Politikern keinen EILfaktor gibt - bei denen dauert eine Tätigkeit so lange bis endlich mal jemand Druck macht oder sich das Projekt inzwischen aufgelöst hat. Erst dann beschäftigt man sich mit dem nächsten Projekt und beginnt wieder bei Null, auch wenn es mit dem vorigen identisch ist. Aber vielleicht können sich die Bürger die neue Technik auch zu Nutze mahen - einfach einige Stichworte eingeben, die geklärt werden sollen und dann telefonieren die Computer mal kurz alle Politiker, usw. durch.
larsmach 13.05.2018
3. Das eigentliche Ziel: JEDER Unqualifizierte kann Maschinen bedienen!
Bei der Debatte um "Erkennbarkeit von Computerstimmen" wird en passant die eigentliche Revolution übersehen: Wenn wir uns als Laien mit Medizindatenbanken menschlich unpräzise unterhalten können (z.B. zur Anamnese), Kräne und Produktionsmaschinen steuern ohne Ausbildung, Spiele produzieren ohne Programmierkenntnisse, dann ist Qualifikation überflüssig! Der qualifizierte Arzt, Techniker, Programmierer wird zum Assistenten degradiert oder ganz überflüssig - und entsprechend bezahlt. Wenn Qualifikation nicht mehr relevant ist, ändern sich die Spielregeln auf einen Schlag! Möglichst wird dies durch den Paradigmenwechsel in der Information - weg von präzisen und spezifischen Algorithmen, hin zu Mustererkennung und Stochastik sowie simpler Axiome. DARÜBER lohnt sich mehr nachzudenken als über "irreführende" Computergespräche und den Hinweis auf misslungene Reservierungen erster Gehversuche im Mai 2018...
abwinken 13.05.2018
4. ich knirsche
So ein Scheiss. Robotergesetze. Der Stimmcomputer muss sich als solcher zu erkennen geben. Das wird den polnischen Enkeltrickbetrüger mit KI-Unterstützung schwer interessieren. Und den nigerianischen Prinzen aus der Deep-Learning-Ecke erst recht. Der Turingtest hat die Richtung vorgegeben, unabänderlich. Dem Mensch bleibt nur im Ernstfall dämlich zu gucken. Das kann er bislang noch besser. Wie lang? GRINS
der IV. Weg 13.05.2018
5. "Wir wissen, wie wir mit solchen Leuten umgehen: Wir hassen sie."
mit solchen Leuten .. KI Anrufer sind also: solche Leute. Und Wir sind die anderen Leute. Nun ja, ist der Geist erst mal aus der Flasche ... Mir gefällt das gar nicht, man muss nicht alles machen was man machen kann. Tut es aber. Logo. Der Gesetzgeber sollte schnell handeln ! Bitte. Danke.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.