Netzwelt

Anzeige

Künstliche Intelligenz

Google Duplex ist gruselig gut

Auf seiner Entwicklerkonferenz I/O hat Google einen Ausblick darauf gegeben, wie digitale Assistenten künftig eigenständig telefonieren können. Die Vorführung gelang so überzeugend, dass man sich Sorgen machen muss.

Aus Mountain View berichtet

AP

Google-CEO Sundar Pichai beschreibt, wie sein Unternehmen die Stimme des Musikers John Legend digitalisiert.

Mittwoch, 09.05.2018   14:24 Uhr

Anzeige

Stimme 1: "Hallo, wie kann ich Ihnen helfen?"

Stimme 2: "Hi, ich rufe an, um für eine Kundin einen Damenhaarschnitt zu buchen."

Anzeige

Stimme 2: "Am besten wär's am 3. Mai."

Stimme 1: "Klar, einen Moment bitte."

Anzeige

Stimme 2: "Mm-Hmm."

Stimme 1: "Gut. Um welche Uhrzeit würde es denn passen?"

Stimme 2: "Um 12 Uhr."

Stimme 1: "Um 12 Uhr haben wir nichts mehr frei. Die nächste Möglichkeit wäre 13:15 Uhr."

Stimme 2: "Haben Sie vielleicht etwas zwischen 10 und 12 Uhr?"

Stimme 1: "Kommt darauf an, was gemacht werden soll. Was will sie denn gemacht haben?"

Stimme 2: "Für's Erste nur einen Damenhaarschnitt."

Stimme 1: "Okay, das können wir um 10 Uhr machen."

Stimme 2: "10 Uhr passt prima."

Stimme 1: "Okay, wie lautet ihr Vorname?"

Stimme 2: "Der Vorname ist Lisa."

Stimme 1: "Okay, perfekt. Dann sehen wir Lisa am 3. Mai um 10 Uhr."

Stimme 2: "Okay. Super. Danke."

Stimme 1: "Prima. Einen schönen Tag noch. Tschüss."

Hand aufs Herz: Als Sie diese Gesprächsmitschrift gelesen haben, hätten Sie vermutet, dass einer der Gesprächsteilnehmer eine Maschine ist? Könnten Sie sagen, welcher?

Genau diesen Dialog hat Google-Chef Sundar Pichai am Dienstag auf seiner Keynote zur Google-I/O-Konferenz dem staunenden Publikum vorgespielt. Obwohl Pichai vorher verraten hatte, wer Mensch und wer Maschine ist, war kaum zu erkennen, dass einer der beiden keine echte Person, kein Mensch ist. Mit der Demonstration - die, um das klarzustellen, eine Audioaufzeichnung und keine Live-Vorführung war - wollte der Google-CEO zeigen, wie leistungsfähig Googles künstliche Intelligenz bereits ist.

Den Assistenten anrufen lassen

Das Projekt läuft bei Google unter dem Namen Duplex. Es ist eine Weiterentwicklung des digitalen Assistenten, der auf bestimmte Gesprächssituationen trainiert worden ist. Vorläufig kann das System deshalb nur für wenige Arten von Telefongesprächen genutzt werden: für Reservierungen in Restaurants oder Termine beim Friseur sowie für die Abfrage von Öffnungszeiten.

Die konkrete Idee dahinter ist, dass der Google Assistant seinem Nutzer künftig bestimmte Anrufe abnehmen können soll, indem man etwa zu seinem Smartphone sagt: "Hey Google, reserviere mir für Donnerstag einen Tisch für zwei Personen im Shallala-Inn." Die KI würde sich daraufhin die Telefonnummer des Restaurants suchen, dort anrufen, mit dem Menschen am anderen Ende der Leitung die Tischreservierung besprechen und den Termin dann im Kalender des Nutzers eintragen. Etwas grundsätzlicher geht es Google darum, eine Konversation zwischen Mensch und Computer in natürlicher Sprache zu ermöglichen.

Google Duplex als derzeit beste Umsetzung dieser Idee ist faszinierend und verstörend zugleich.

Täuschend echt

Verstörend, weil Duplex schon bei der kurzen Vorführung auf Googles Bühne in Mountain View mit einer derart natürlich erscheinenden Stimme sprach, dass man normalerweise nicht auf den Gedanken gekommen wäre, es könnte sich um die Sprachausgabe eines Computers handeln.

Möglich ist das, weil der Google Assistant so weit entwickelt ist, dass er jene Hürde überwindet, die sprechende KIs bisher sekundenschnell überführt hat: Ihre mechanische, viel zu regelmäßige Aussprache. Anders als die klassischen Roboterstimmen, die man bisher von Systemen wie Cortana, Siri und auch dem Google Assistant gewöhnt ist, fügt Google Duplex Unregelmäßigkeiten in seine Sätze ein.

Da sind scheinbare Denkpausen zu hören, ab und zu ein gemurmeltes "Mhmm" und unvermittelt auftretende Sprechpausen. In der Kombination hat man das Gefühl, die KI höre ihrem Gegenüber wirklich zu, würde nachdenken, dem Gesprächspartner Gelegenheit geben, das Gesagte zu verstehen.

Muss die Maschine sagen, dass sie eine ist?

Das wirft ethische Fragen auf. Etwa die, ob ein solches System sich dem Angerufenen gegenüber zu erkennen geben sollte, indem es zu Gesprächsbeginn zum Beispiel sagt: "Guten Tag, ich bin der Google Assistant von Max Mustermann."

Der KI-Forscher Toby Walsh von der Universität von New South Wales in Sydney hat das bereits im Jahr 2016 vorgeschlagen: "Turing's Red Flag law" nannte er sein Konzept. "Was passiert, wenn die KI jemanden nachahmt, dem wir vertrauen?", fragte er in seinem Aufsatz. "Was, wenn wir ihr menschliche Fähigkeiten zuschreiben, sie aber nur unterhalb dieses Niveaus agieren kann? - Dann könnte es schnell zu Unfällen kommen. Was, wenn wir eine soziale Bindung zu einer KI aufbauen oder uns gar in sie verlieben?"

Google beantwortet das bisher nur vage: "Wir glauben, es ist richtig, hier transparent vorzugehen", sagte ein Google-Manager im Gespräch mit "CNET". Auf viele Fragen wüsste Google die Antwort jedoch selbst noch nicht.

Eine davon könnte auch diese sein: Wie sicher ist ein solches System in Bezug auf Betrugsversuche, wie sicher wird es in Zukunft sein? Schließlich wurde auf der I/O-Konferenz zeitgleich gezeigt, wie Google die Stimmen Prominenter digitalisiert und für den Google Assistant nutzbar macht. Den Anfang macht in den USA der Musiker John Legend, für Deutschland sind eigene Promi-Stimmen in Planung.

KI für Routine-Aufgaben

Noch ist diese Technik Highend und nur mit großem Aufwand realisierbar. Angesichts der rasanten technischen Fortschritte kann man jedoch davon ausgehen, dass in drei, vier oder fünf Jahren jedermann in der Lage sein wird, seine oder auch fremde Stimmen mit einem guten Mikrofon und einem Computer zu digitalisieren. Start-ups wie Lyrebird arbeiten schon daran.

Damit gäbe es dann aber auch die Möglichkeit, eine KI viel mehr als nur alltägliche Routineanrufe erledigen zu lassen: "Okay Google, ruf Mama an und gratuliere ihr zum Geburtstag" wäre noch harmlos, weil es nur gesellschaftliche Normen der Höflichkeit verletzen würde. "Ruf 100 Menschen mit der Stimme von Promi XY an und bitte um eine Spende für wohltätige Zwecke auf mein Konto" wäre die weniger harmlose Variante.

Bevor Google Duplex frei verfügbar und von anderen nachgebaut wird, muss deshalb geklärt werden, wie mit solchen Möglichkeiten umgegangen werden soll. Im Sommer will Google das System mit einer kleinen Testgruppe in den USA ausprobieren.

Weitere Artikel

Forum

Forumskommentare zu diesem Artikel lesen
Anzeige
© SPIEGEL ONLINE 2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH