Künstliche Intelligenz Google Duplex ist gruselig gut

Auf seiner Entwicklerkonferenz I/O hat Google einen Ausblick darauf gegeben, wie digitale Assistenten künftig eigenständig telefonieren können. Die Vorführung gelang so überzeugend, dass man sich Sorgen machen muss.

Google-CEO Sundar Pichai beschreibt, wie sein Unternehmen die Stimme des Musikers John Legend digitalisiert.
AP

Google-CEO Sundar Pichai beschreibt, wie sein Unternehmen die Stimme des Musikers John Legend digitalisiert.

Aus Mountain View berichtet


Stimme 1: "Hallo, wie kann ich Ihnen helfen?"

Stimme 2: "Hi, ich rufe an, um für eine Kundin einen Damenhaarschnitt zu buchen."

Stimme 2: "Am besten wär's am 3. Mai."

Stimme 1: "Klar, einen Moment bitte."

Stimme 2: "Mm-Hmm."

Stimme 1: "Gut. Um welche Uhrzeit würde es denn passen?"

Stimme 2: "Um 12 Uhr."

Stimme 1: "Um 12 Uhr haben wir nichts mehr frei. Die nächste Möglichkeit wäre 13:15 Uhr."

Stimme 2: "Haben Sie vielleicht etwas zwischen 10 und 12 Uhr?"

Stimme 1: "Kommt darauf an, was gemacht werden soll. Was will sie denn gemacht haben?"

Stimme 2: "Für's Erste nur einen Damenhaarschnitt."

Stimme 1: "Okay, das können wir um 10 Uhr machen."

Stimme 2: "10 Uhr passt prima."

Stimme 1: "Okay, wie lautet ihr Vorname?"

Stimme 2: "Der Vorname ist Lisa."

Stimme 1: "Okay, perfekt. Dann sehen wir Lisa am 3. Mai um 10 Uhr."

Stimme 2: "Okay. Super. Danke."

Stimme 1: "Prima. Einen schönen Tag noch. Tschüss."

Hand aufs Herz: Als Sie diese Gesprächsmitschrift gelesen haben, hätten Sie vermutet, dass einer der Gesprächsteilnehmer eine Maschine ist? Könnten Sie sagen, welcher?

Genau diesen Dialog hat Google-Chef Sundar Pichai am Dienstag auf seiner Keynote zur Google-I/O-Konferenz dem staunenden Publikum vorgespielt. Obwohl Pichai vorher verraten hatte, wer Mensch und wer Maschine ist, war kaum zu erkennen, dass einer der beiden keine echte Person, kein Mensch ist. Mit der Demonstration - die, um das klarzustellen, eine Audioaufzeichnung und keine Live-Vorführung war - wollte der Google-CEO zeigen, wie leistungsfähig Googles künstliche Intelligenz bereits ist.

Den Assistenten anrufen lassen

Das Projekt läuft bei Google unter dem Namen Duplex. Es ist eine Weiterentwicklung des digitalen Assistenten, der auf bestimmte Gesprächssituationen trainiert worden ist. Vorläufig kann das System deshalb nur für wenige Arten von Telefongesprächen genutzt werden: für Reservierungen in Restaurants oder Termine beim Friseur sowie für die Abfrage von Öffnungszeiten.

Fotostrecke

34  Bilder
Smarte Lautsprecher im Test: Gadgets mit Alexa und Google Assistant im Vergleich

Die konkrete Idee dahinter ist, dass der Google Assistant seinem Nutzer künftig bestimmte Anrufe abnehmen können soll, indem man etwa zu seinem Smartphone sagt: "Hey Google, reserviere mir für Donnerstag einen Tisch für zwei Personen im Shallala-Inn." Die KI würde sich daraufhin die Telefonnummer des Restaurants suchen, dort anrufen, mit dem Menschen am anderen Ende der Leitung die Tischreservierung besprechen und den Termin dann im Kalender des Nutzers eintragen. Etwas grundsätzlicher geht es Google darum, eine Konversation zwischen Mensch und Computer in natürlicher Sprache zu ermöglichen.

Google Duplex als derzeit beste Umsetzung dieser Idee ist faszinierend und verstörend zugleich.

Täuschend echt

Verstörend, weil Duplex schon bei der kurzen Vorführung auf Googles Bühne in Mountain View mit einer derart natürlich erscheinenden Stimme sprach, dass man normalerweise nicht auf den Gedanken gekommen wäre, es könnte sich um die Sprachausgabe eines Computers handeln.

Möglich ist das, weil der Google Assistant so weit entwickelt ist, dass er jene Hürde überwindet, die sprechende KIs bisher sekundenschnell überführt hat: Ihre mechanische, viel zu regelmäßige Aussprache. Anders als die klassischen Roboterstimmen, die man bisher von Systemen wie Cortana, Siri und auch dem Google Assistant gewöhnt ist, fügt Google Duplex Unregelmäßigkeiten in seine Sätze ein.

Da sind scheinbare Denkpausen zu hören, ab und zu ein gemurmeltes "Mhmm" und unvermittelt auftretende Sprechpausen. In der Kombination hat man das Gefühl, die KI höre ihrem Gegenüber wirklich zu, würde nachdenken, dem Gesprächspartner Gelegenheit geben, das Gesagte zu verstehen.

Muss die Maschine sagen, dass sie eine ist?

Das wirft ethische Fragen auf. Etwa die, ob ein solches System sich dem Angerufenen gegenüber zu erkennen geben sollte, indem es zu Gesprächsbeginn zum Beispiel sagt: "Guten Tag, ich bin der Google Assistant von Max Mustermann."

Der KI-Forscher Toby Walsh von der Universität von New South Wales in Sydney hat das bereits im Jahr 2016 vorgeschlagen: "Turing's Red Flag law" nannte er sein Konzept. "Was passiert, wenn die KI jemanden nachahmt, dem wir vertrauen?", fragte er in seinem Aufsatz. "Was, wenn wir ihr menschliche Fähigkeiten zuschreiben, sie aber nur unterhalb dieses Niveaus agieren kann? - Dann könnte es schnell zu Unfällen kommen. Was, wenn wir eine soziale Bindung zu einer KI aufbauen oder uns gar in sie verlieben?"

Google beantwortet das bisher nur vage: "Wir glauben, es ist richtig, hier transparent vorzugehen", sagte ein Google-Manager im Gespräch mit "CNET". Auf viele Fragen wüsste Google die Antwort jedoch selbst noch nicht.

Fotostrecke

11  Bilder
Siri, Cortana, Alexa, Google Assistant: So reagieren Sprachassistenten bei Notfällen

Eine davon könnte auch diese sein: Wie sicher ist ein solches System in Bezug auf Betrugsversuche, wie sicher wird es in Zukunft sein? Schließlich wurde auf der I/O-Konferenz zeitgleich gezeigt, wie Google die Stimmen Prominenter digitalisiert und für den Google Assistant nutzbar macht. Den Anfang macht in den USA der Musiker John Legend, für Deutschland sind eigene Promi-Stimmen in Planung.

KI für Routine-Aufgaben

Noch ist diese Technik Highend und nur mit großem Aufwand realisierbar. Angesichts der rasanten technischen Fortschritte kann man jedoch davon ausgehen, dass in drei, vier oder fünf Jahren jedermann in der Lage sein wird, seine oder auch fremde Stimmen mit einem guten Mikrofon und einem Computer zu digitalisieren. Start-ups wie Lyrebird arbeiten schon daran.

Damit gäbe es dann aber auch die Möglichkeit, eine KI viel mehr als nur alltägliche Routineanrufe erledigen zu lassen: "Okay Google, ruf Mama an und gratuliere ihr zum Geburtstag" wäre noch harmlos, weil es nur gesellschaftliche Normen der Höflichkeit verletzen würde. "Ruf 100 Menschen mit der Stimme von Promi XY an und bitte um eine Spende für wohltätige Zwecke auf mein Konto" wäre die weniger harmlose Variante.

Bevor Google Duplex frei verfügbar und von anderen nachgebaut wird, muss deshalb geklärt werden, wie mit solchen Möglichkeiten umgegangen werden soll. Im Sommer will Google das System mit einer kleinen Testgruppe in den USA ausprobieren.



insgesamt 57 Beiträge
Alle Kommentare öffnen
Seite 1
dyne277@yahoo.de 09.05.2018
1.
wenn ich also in Zukunft mit jemanden sprechen will und sicher gehen will das mich kein Computer oder ähnliches betrügt , muss ich mich am Ende halt doch wieder persönlich Treffen. Fände ich sehr positiv.
Leser161 09.05.2018
2. Hand aufs Herz
Lassen wir mal ausser acht das die Stimme von sich in der dritten Person spricht. Das ganze war eine einfache Situation, die von einer Maschine unproblematisch zu meistern ist, wenn ich Termin, Ausweichtermin und Wunsch einfüttere. In wie weit die Maschine auf unerwartete Fragen sinnvoll reagieren kann oder in den ELIZA-Modus geht können wir hier nicht erkennen. Daher ist das jetzt keine eindrucksvolle oder gar unheimliche Situation. Das Echtzeitsynthetisieren einer Stimme ist weiterhin beeindruckend. Die Gesprächsführung selbst nicht.
Neophyte 09.05.2018
3. Bitte nicht immer jede Neuheit verteufeln!
Immer wenn etwas neues entwickelt wird, kommen die vielen Mahner und zu bedenken Geber auf die ein düsteres Zukunftsszenario aufwerfen, so war es schon bei der Entwicklung der ersten Dampflock, damals hieß es Menschen sind nicht für Geschwindigkeiten über 30 km/h gemacht. Das mit jeder neuen Technologie auch Probleme oder Missbrauch aufkommen lässt sich nicht umgehen, dennoch sollte man mehr über die positiven Möglichkeiten nachdenken und diese nutzen. Die Probleme bekommt man dann meist auch auf die eine oder andere Weise auch in den Griff.
freiheitimherzen 09.05.2018
4. Lisa
"Auf viele Fragen wüsste Google die Antwort jedoch selbst noch nicht." Wenn sie schon auf "Lisa" referenzieren, dann können sie auch gleich die Antworten bei Joseph Weizenbaums "Die Macht der Computer und die Ohnmacht der Vernunft" nachlesen. Die Antworten sind im Grundsatz seit den frühen 70er Jahren bekannt. Es wäre vielleicht einmal an der Zeit sie ernst zu nehmen. Viele Grüße
disi123 09.05.2018
5. Friseur ja, Tisch nein
Also bei der Tischreservierung sprechen die ja teilweise aneinander vorbei. Friseur ist schon echt beeindruckend aber die Dame am anderen Hoerer war auch sehr auf Fakten beschraenkt. Lass da mal so Fragen kommen wie mit Faerben oder ohne, Lang, Kurz, Waschen usw.
Alle Kommentare öffnen
Seite 1
Diskussion geschlossen - lesen Sie die Beiträge! zum Forum...

© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.