AUS DEM SPIEGEL
Ausgabe 6/2018

Dumme Computer Wie man mit simplen Tricks die Gesichtserkennung foppen kann

Selbstlernende Software, die Bilder und Sprache erkennt, lässt sich erstaunlich leicht austricksen - Forscher entdecken ständig neue Varianten der Täuschung.

Getty Images

Von


Zu den lästigsten Widersachern des lernfähigen Computers von heute zählt ein kleiner Farbfleck. Er ist knallbunt, wirr gemustert und erinnert an einen psychedelischen Lollipop. Und er besitzt, wie es scheint, hypnotische Macht über die Maschine.

Titelbild
Dieser Artikel ist aus dem SPIEGEL
Heft 6/2018
Kaufen oder mieten? Was wo schlau ist

Ein Forscherteam bei Google hat diesen Farbfleck ausgetüftelt. Er soll die automatische Bilderkennung des Computers außer Kraft setzen. Der sieht dann überall nur noch Toaster, egal was man ihm zeigt: Bananen, eine Badeente, die Bundeskanzlerin - alles Toaster.

Versuche zeigten, dass der Trick funktioniert. Für den wunderlichen Effekt genügt es, dass der Zauberfleck irgendwo gut sichtbar im Blickfeld der Kamera auftaucht. Kaum nimmt der Computer ihn wahr, ist er wie verhext.

Wie kann das sein? Das Muster, so erklären es die Forscher, wirke auf die künstliche Intelligenz wie ein unwiderstehlicher Köder: In dem Fleck glaube sie dermaßen überdeutlich einen Toaster zu erkennen, dass sie die anderen Bildinhalte für unwesentlich hält - und ignoriert.

Erstaunlich, wie leicht die Maschine sich hereinlegen lässt. Es ist nicht der erste Fall. Auch andere Forscher haben die seltsame Schwäche der Bilderkennung bereits vorgeführt. Zum Beispiel veränderten sie auf digitalen Fotos, für Menschen unmerklich, einzelne Bildpunkte - und der Computer verwechselte plötzlich einen Schulbus mit einem Vogel Strauß.

Ähnliches gelang sogar schon mit Objekten aus einem 3-D-Drucker: Eine subtil präparierte Schildkröte wurde prompt als Gewehr erkannt. Dass ein friedfertiges Kriechtier kaum als Schusswaffe taugt, störte den Computer nicht im Geringsten; er war sich seines Urteils sicher.

Bislang war das Foppen der künstlichen Intelligenz großteils eine Sache für Experten. Aber nun werden die Methoden immer laienfreundlicher. Den hypnotischen Farbfleck kann sich jeder herunterladen und ausdrucken. Mit etwas Sachkenntnis lassen sich neben Toastern auch andere Muster anfertigen - sei es für Dreiräder, Handgranaten oder Goldhamster. Im Internet, glauben die Forscher, dürfte bald ein reiches Sortiment an Halluzinogenen für Computer bereitstehen.

Das sind reizvolle Aussichten für Hacker und Freunde des Schabernacks - oder auch für die Aktivisten gegen staatlichen Kontrolleifer. Sie könnten sich probeweise solch ein Muster als Abwehrzauber auf die Stirn kleben. Nicht ausgeschlossen, dass die Überwachungskameras bei künftigen Demonstrationen auffallend viele mitmarschierende Toaster registrieren.

Kollegen der Carnegie Mellon University in Pittsburgh entwickelten bereits speziell gemusterte Brillenrahmen, ebenfalls ausdruckbar, zur Tarnung der eigenen Identität. Wer sie auf sein Gestell klebt, wird dann zum Beispiel recht zuverlässig als der Filmstar Russell Crowe identifiziert.

Für die künstliche Intelligenz bedeutet das nichts Gutes. Dabei wurde die automatische Bilderkennung in den vergangenen Jahren eigentlich immer besser. In vielen Anwendungen steht sie dem Menschen kaum mehr nach - wären da nicht diese befremdlichen Fehler.

Das hat zu tun mit der Art, wie Computer lernen: Sie suchen große Mengen von Bildern immer wieder nach Mustern ab. Jedes Bild sollen sie, grob gesprochen, in die passende Schublade sortieren - alle Schildkröten in die eine, alle Gewehre in die andere.

Die Maschine kann nur raten; aber bei jedem Durchgang versucht sie, ihre Kriterien ein wenig zu verbessern. Nach zahllosen Versuchen hat sie dann offenbar etwas gelernt: Die meisten Schildkröten landen in der richtigen Schublade.

Allerdings ist schwer zu sagen, wie der Computer zu seinem Urteil kommt. Sicher ist nur: Worauf Menschen da achten würden - rundlicher Panzer, schuppige Beine -, spielt kaum eine Rolle. Sonst ließe die Maschine sich schwerlich ein Reptil als Gewehr unterjubeln. Offenbar hat sie überhaupt nicht begriffen, was sie da sieht.

Das ist derzeit das große Rätsel des maschinellen Lernens: Wie können die Maschinen so gut sein - und doch so eklatant danebenhauen? Die Forschung erhofft sich Aufschluss von der Suche nach weiteren Schwachstellen, inzwischen ist das eine blühende Disziplin. Immer neue Attacken werden erprobt; praktisch alle paar Tage kommen blamable Befunde heraus.

Den ersten erfolgreichen Angriff auf eine Lernmaschine meldeten Forscher von Google Ende 2013. Seither hat sich viel getan. Damals ging es nur um falsch erkannte Digitalfotos. Das klang noch nicht sonderlich gefährlich, eher wie ein theoretisches Problem.

Aber die Forschung nahm ihren Lauf. Bald gelangen Attacken auch in der realen Welt - zum Beispiel auf Verkehrszeichen: Ein leicht manipuliertes Stoppschild gaukelte dem Computer ein Tempolimit vor. Obendrein zeigte sich, dass ihn nicht nur Bilder verwirren können. Die automatische Spracherkennung ist ebenfalls angreifbar: Der Mensch spricht, und der Computer versteht etwas völlig anderes. Er fällt auf kaum hörbare Störsignale herein, die dem gesprochenen Text beigemengt sind. Das funktioniert bei Aufnahmen, aber auch in Echtzeit. Sogar in Musikstücken lässt sich geheimer Subtext verstecken. Gut möglich also, dass ein argloser Musikfreund eine schöne Konzertaufnahme bei YouTube startet - und schon senden seine Lautsprecher unmerklich Botschaften aus an alle empfangsbereiten Computer im Raum.

Maschinen, die Stimmen hören, haben gerade noch gefehlt. In Millionen Haushalten sind bereits smarte Assistenten wie "Alexa" von Amazon eingezogen, die beständig auf Befehle lauschen. Es gilt als ausgemacht, dass wir bald unser halbes Leben mittels Sprachbefehlen steuern werden.

Nicht schön, wenn da unbekannte Finsterlinge mitreden. Es genügt, wenn sie im ganzen smarten Haus unversehens das Licht ausmachen oder mit "Alexas" Stimme vor versammelter Familie zotige Witze reißen.

Je weiter die künstliche Intelligenz in den Alltag vordringt, desto heikler wird ihre Anfälligkeit. So bietet das selbstfahrende Auto viele Angriffspunkte. Ein Forscherteam beim Autozulieferer Bosch zeigte, dass sich theoretisch sogar der Steuercomputer gezielt verwirren lässt: Im Experiment erkannte er - wie geblendet - die Fußgänger nicht mehr, die gerade vor dem Auto die Straße überquerten.

Gegen solche Attacken ist bislang wenig auszurichten. Es hilft, die Lernmaschinen zusätzlich auf bekannte Trugbilder und Störgeräusche zu trainieren, dann fallen sie nicht mehr so leicht darauf herein. Aber eine solche Impfkur schützt nicht vor Angriffen noch unbekannter Art.

Wo es auf Sicherheit ankommt, sind selbstlernende Computer also bis auf Weiteres ein schwer kalkulierbares Risiko.

Für die Sache der künstlichen Intelligenz ist das ernüchternd. Viele Forscher hatten gehofft, ihre Lernmaschinen würden mit der Zeit klüger werden. Ein Computer, der auf zahllosen Fotos Tische korrekt erkennt, sollte mit der Zeit auch lernen, was einen Tisch ausmacht: eine ebene Fläche auf einem Untersatz, häufig von Stühlen umringt, fallweise bedeckt von Frühstücksgeschirr, Hausaufgabenheften oder einem Schachbrett.

Von dieser Hoffnung ist nicht mehr viel übrig. Computer verstehen nicht, was Tische gemeinsam haben und wofür sie gut sind. Sie können nicht verallgemeinern und sind blind für menschliche Zwecke. Ein ausgedruckter Farbfleck auf dem Tisch genügt, und sie halten ihn für einen Toaster.

Das wahre Wunder ist, was eine Maschine auch ohne Verstand zuwege bringt. Aber woran erkennt sie dann im Normalfall den Tisch?

Der KI-Pionier Yoshua Bengio an der Universität von Montreal hatte da einen Verdacht. Er wusste, dass Fotos eine kuriose Eigenheit aufweisen: Verschiedenste Aufnahmen vom gleichen Typ - etwa Straßenszenen mit Autos - haben rein rechnerisch viel gemein. Sie teilen quasi einen verborgenen Code. Dieser Code hängt davon ab, wie die Farben über die Bildfläche verteilt sind, wie die Kontraste verlaufen, ob eher glatte Flächen vorherrschen oder detailreiche Strukturen.

Das ist pure Statistik - dem Menschen sagt das nichts, der Maschine womöglich eine ganze Menge. Bilder von Autos haben, wie sich zeigte, einen anderen Code als solche von Wasserfällen, Hochhäusern oder Tieren. Allein aus diesen mathematischen Mustern lässt sich oft schon eingrenzen, was so ein Bild wohl zeigt - auch ohne es zu "sehen".

Und Lernmaschinen behelfen sich tatsächlich mit solchen statistischen Tricks. Das konnte Bengio kürzlich in einem Experiment nachweisen. Die wahre Gestalt hingegen erfasst der Computer wohl oft nur rudimentär. Zumindest teilweise erklärt das, warum er sich so leicht verwirren lässt. Und warum er beim Lernen nicht wirklich vorankommt.

"Wir glauben nicht, dass es dafür eine einfache Abhilfe gibt", sagt KI-Forscher Bengio. Nötig sei eine neue Art des Lernens: Man müsse die Maschine "so trainieren, dass sie den Inhalt eines Bildes versteht". Dafür müsse sie auch lernen, was Objekte sind - und wie sie sich in der realen Welt zueinander verhalten.

Bislang rastert der Computer nur Pixelflächen nach verräterischen Mustern ab. Nun soll er auf die Ebene der abstrakten Konzepte emporsteigen: Was macht den Tisch zum Tisch, die Schildkröte zur Schildkröte?

François Chollet, KI-Forscher bei Google, ist da skeptisch. Er ahnt, wie schwer das wird: den Maschinen das Abstrahieren beizubringen. Das sei "die größte Frage in der KI", twitterte er kürzlich. "Und niemand hat eine Ahnung."

Gut möglich, dass die Forschung in ein paar Jahren schon deutlich weiter ist. Aber dann ist natürlich auch mit ausgefuchsteren Attacken zu rechnen.



© DER SPIEGEL 6/2018
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.