Bilderkennung An diesen Fotos scheitert künstliche Intelligenz

Forscher haben Zehntausende Fotos von Eiern, Weckern und Woks knipsen lassen. Ihr Ziel ist es, die Grenzen künstlicher Intelligenz aufzuzeigen, um sie besser zu machen.
Solche Objekte erkennt eine KI nur, wenn sie anders präsentiert werden

Solche Objekte erkennt eine KI nur, wenn sie anders präsentiert werden

Foto: MIT

Sogenannte künstliche Intelligenz (KI) hat vor allem eines ziemlich gut drauf: Erkennen, was auf Bildern zu sehen ist. Es ist eine Vorzeigefunktion, wenn es darum geht, das Potenzial der Zukunftstechnologie zu beschreiben. Die Software erkennt mittlerweile Handy-Sünder am Steuer, filtert Foto-Fakes heraus und lotst selbstfahrende Autos durch den Straßenverkehr. Doch Forscher des Massachusetts Institute of Technology (MIT) zeigen der KI jetzt ihre Grenzen auf - und lassen die leistungsfähigsten KI-Programme reihenweise scheitern.

Die Wissenschaftler stellten fest, dass KI zwar ziemlich gut Stereotypen erkennen kann. Wenn das Motiv aber von der Norm abweicht und nicht mehr in den Kontext passt, dann wird es knifflig. Steckt ein Hammer in einer Wolldecke, liegt ein Stuhl auf dem Bett und verhüllt Schmutzwäsche den Sessel, geben die meisten künstlichen neuronalen Netze auf.

Während bei klassischen Fotodatenbanken die Genauigkeit der KI-Objekterkennung teilweise bei über 90 Prozent liegt, brechen die Werte laut dem Bericht der Forscher ein , wenn verdrehte oder schräg fotografierte Objekte erkannt werden müssen. Solche Bilder haben die Forscher in ihrer Fotosammlung mit dem Namen ObjectNet abgelegt. Lediglich knapp über 50 Prozent erreichen die Werte dann noch, wenn KI-Software damit getestet wird. Das wäre in der Praxis in etwa so hilfreich, als würde eine Software raten, was auf einem Bild zu sehen ist - womit sie wertlos wäre.

02_statistik_objectnet

02_statistik_objectnet

Foto: MIT

Es hat rund vier Jahre gedauert, um ObjectNet aufzubauen. Die Wissenschaftler hatten eine Anleitungs-App entwickelt und Hobby-Fotografen für das Projekt engagiert, um die 50.000 Bilder zu knipsen. Mehr als 300 Objekte wie Eier, Taschenlampen, Ladegeräte, Wecker und Woks mussten sie dafür ablichten. Andrei Barbu, einer der Forscher des ObjectNet-Teams, sagte dem SPIEGEL: "Wir haben ihnen erklärt, welches Objekt sie wo in ihrer Wohnung hinlegen, wie sie es drehen und wie sie ihr Smartphone halten sollen."

Herausgekommen sind Motive, die für Menschen meist leicht erkennbar sind - aber nicht für eine KI. Da dürfe man nicht von der menschlichen Objekterkennung ausgehen, sagt Barbu. Für Menschen sei es kein Problem, ein Objekt auf einem Foto zu sehen und später auch in der echten Welt zu erkennen. "Das trifft nicht wirklich auf die Objekterkennung zu", sagt Barbu. "Nun haben wir gutes Testmaterial, um ein System zu knacken, ohne Menschen zu gefährden."

"Wir müssen sehr vorsichtig sein"

In erster Linie gehe es darum, KI-Software besser zu machen - auch um Risiken wie Unfälle zu vermeiden. Denn im Einsatz auf der Straße kann ein Softwarefehler schnell gefährlich werden. Auf die Frage, was die hohe Fehlerquote etwa für die Entwicklung selbstfahrender Autos heißt, sagt der Forscher: "Das bedeutet, dass wir sehr vorsichtig sein müssen." Objekterfassung sei noch nicht perfekt. "Solange wir sie nicht richtig testen, werden wir die Ungenauigkeiten auch nicht entdecken." Man wolle mit den Bildern nicht dazu beitragen, dass die Treffsicherheit der KI-Programme sinke. "Wir wollen zeigen, wie man die Leistung der Bilderkennung zuverlässiger testen kann."

Die Forscher weisen allerdings ausdrücklich darauf hin, dass es sich bei den Bildern nicht um eine Trainingsdatenbank, sondern um Testmaterial handle. Man kann und sollte damit also nur prüfen, wie gut ein bereits trainiertes Modell mit nicht bekannten Material umgeht. Für eine KI-Trainingsdatenbank ist ObjectNet viel zu winzig. Im Vergleich zu Fotosammlungen wie Google Open Images und ImageNet mit jeweils zehn Millionen Bildern sind die 50.000 ObejctNet-Bilder eine mickrige Auswahl.

Allerdings sind die Motive eben nicht so erwartbar wie Bilder der ImageNet-Datenbank, die unter anderem aus Flickr und anderen Fotodiensten gespeist wird. Denn wenn es darum geht, Fotos mit Freunden zu teilen, dann würden die Bilder von ObjectNet keine guten Chancen haben, wie es in einem Bericht bei "MIT News" heißt . Und genau das sei der entscheidende Punkt: KI soll eben auch Objekte erkennen, die auf dem Kopf stehen, in unaufgeräumten Zimmern liegen und aus ungewohnten Perspektiven aufgenommen wurden.

Die Wiedergabe wurde unterbrochen.