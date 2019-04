"Alexa, schreib Spreewaldgurken auf meine Einkaufsliste." Wer Amazons smarten Lautsprecher Echo oder irgendein anderes Alexa-gesteuertes Gerät benutzt, um solche Kommandos zu geben oder um die Wettervorhersage, Öffnungszeiten und Sportergebnisse abzufragen, muss damit rechnen, dass sich Amazons Personal die Gespräche später unter Umständen anhört und schriftlich festhält.

Denn Amazon lässt seine Mitarbeiter (oder Auftragnehmer) transkribieren und annotieren, was zufällig ausgewählte Kunden in Gesprächen mit Alexa sagen.

Mehr als 1000 Aufnahmen soll jeder Angestellte täglich bearbeiten. Notiert wird dabei auch alles, was im Hintergrund der Aufnahme zu hören ist: Gesang, Babygeschrei, Hilferufe. Immer wieder sind Aufnahmen darunter, die Nutzer gar nicht absichtlich gestartet haben. Sie könnten entstanden sein, als jemand etwas sagte, das so ähnlich klingt wie das Aktivierungswort, mit dem Alexa "aufgeweckt" wird.

Mit den Transkripten sollen die Spracherkennung, die Dialogfähigkeit und der Funktionsumfang der virtuellen Assistentin verbessert werden. Einen entsprechenden Bericht von "Bloomberg" haben ehemalige Amazon-Mitarbeiter in weiten Teilen dem SPIEGEL bestätigt.

Auch die Konversationen deutschsprachiger Nutzer werden den Angabe zufolge analysiert - sofern sie dieser Verwendung nicht in der Alexa-App beziehungsweise auf der Amazon-Website widersprechen. (Wie das geht, beschreiben wir in diesem Artikel.)

Problematisch daran ist, dass Amazon das Verfahren bisher nirgends ausführlich erklärt. Wer nicht weiß, wie solche Assistenzsysteme funktionieren und wie sie (weiter)entwickelt werden, dürfte deshalb vom menschlichen Faktor in der "künstlichen Intelligenz" überrascht sein.

Auch Google und Facebook brauchen die Hilfe ihrer Nutzer

Doch grundsätzlich ist das längst kein Geheimnis mehr.

Bereits 2016 gab es Berichte über Clickworker, die für Amazon, Google, Microsoft und andere Unternehmen ähnliche Arbeit verrichten. Damals war allerdings noch nicht explizit von Sprachaufzeichnungen echter Nutzer die Rede. Vor einem Jahr gab Facebook bekannt, dass es Milliarden von Instagram-Fotos zur Verbesserung seiner Bilderkennung benutzt - annotiert von den Nutzern der App selbst, in Form von Hashtags.

Und Googles reCAPTCHA-System zur Überprüfung, ob ein Mensch gerade eine Eingabe getätigt hat, ist ebenfalls (unter anderem) ein Training für die Bilderkennung des Unternehmens: Immer wenn Nutzer vor dem Besuch einer Website aufgefordert werden, von neun eingeblendeten Bildern alle anzuklicken, auf denen ein Auto oder ein Geschäft zu sehen ist, helfen sie, diese Bilder korrekt zu beschriften und Googles Software damit zu verbessern.

Für Experten auf dem Gebiet ist die menschliche Hilfe für Bild- und Spracherkennungssoftware ohnehin selbstverständlich. Der Medieninformatiker Florian Gallwitz von der Technischen Hochschule Nürnberg sagt: "So etwas wie Alexa kann man nicht am Reißbrett entwerfen und dann als fertiges Produkt auf Kunden loslassen. Damit das System funktioniert, müssen die Entwickler möglichst genau vorhersehen, wie Nutzer damit interagieren werden. Das funktioniert nur, indem man sie mit dem System reden lässt und ihre Eingaben dann zur Weiterentwicklung nutzt". Hinzukomme, dass auch "neue Trends, populäre Künstler oder Sportler zu ganz neuen Nutzereingaben führen" könnten. "Deshalb ist dieser Optimierungsprozess nie abgeschlossen."

Menschliche Hilfe sei dabei noch unerlässlich: "Damit Sprachdaten zum Training eines Spracherkennungssystems genutzt werden können, braucht man beim heutigen Stand der Technik zwingend eine korrekte Transkription der Äußerungen. Das ist Handarbeit." Das maschinelle Lernen stoße derzeit schnell an Grenzen, sagt Gallwitz: "Die Vorstellung, Sprachassistenten wie Alexa wären 'selbstlernende Systeme', die von allein dazu lernen und ganz von selbst immer besser werden, ist vollkommen abwegig".

Vieles davon könnte Amazon in seinen Nutzungsbedingungen oder an anderer Stelle besser erklären als bisher. In den FAQ zu Alexa etwa heißt es nur allgemein: "Zum Beispiel verwenden wir Ihre Befehle an Alexa, um unsere Systeme zur Spracherkennung und zum Verstehen natürlicher Sprachen zu trainieren". Von menschlichen Trainern steht da nichts.

Bei der Antwort auf die Frage, was die Amazon-Mitarbeiter über die Kunden erfahren, widersprechen sich Amazons Aussagen und die Schilderungen ehemaliger Mitarbeiter, mit denen der SPIEGEL sprechen konnte, mit den Angaben im "Bloomberg"-Bericht. In letzterem heißt es, wer Aufzeichnungen transkribiere, könne Vornamen, Amazon-Account-Nummer sowie Gerätenummer sehen. Ein Ex-Mitarbeiter aber sagte dem SPIEGEL, er habe überhaupt keine Kundendaten bekommen, nur die reine Tonaufzeichnung auf den Kopfhörer.

Auch Amazon selbst schreibt in einem Statement: "Wir versehen nur eine extrem geringe Anzahl von Interaktionen einer zufälligen Gruppe von Kunden mit Anmerkungen, um die Nutzererfahrung zu verbessern." Und weiter: "Bei uns gelten strenge technische und betriebliche Sicherheitsvorkehrungen und wir verfolgen eine Null-Toleranz-Politik, was den Missbrauch unseres Systems betrifft. Im Rahmen dieses Workflows haben Mitarbeiter keinen direkten Zugriff auf Informationen, die die Person oder das Konto identifizieren können."

Der Bundesbeauftragte für den Datenschutz, Ulrich Kelber, kennt bisher nur Medienberichte dazu. Seine Behörde teilte mit: "Die Datenschutzkonformität des in Rede stehenden Verfahrens wird sicherlich von der in Europa für Amazon zuständigen Datenschutzaufsichtsbehörde in Luxemburg überprüft werden. Grundsätzlich zeigt sich hier aber erneut, dass die vermeintlichen Vorteile eines digitalen Assistenten gegen das evidente Risiko, seine Privatsphäre gegenüber einer unbekannten Zahl von Personen offen zu legen, wohlüberlegt abgewogen werden sollte."