Fotostrecke

Automatische Bildanalyse: Mein Rechner sieht nix!

Foto: Rolf Vennenbernd/ picture-alliance/ dpa

Automatische Bildanalyse Blinde Computer sollen sehen lernen

Ein Schloss! Ein Schuh! Der Himmel! Wir Menschen erfassen den Inhalt von Fotos binnen Sekundenbruchteilen. Computer sind damit jedoch vollkommen überfordert. Nun bringen Forscher den Maschinen das Sehen bei - ein Vorhaben, von dem auch Google profitieren will.

Für den Otto-Normal-Anwender sind Digitalfotos leicht zu handhaben. Die Auflösung der Kameras ist gigantisch, die Bildqualität hervorragend. Speicherplatz auf den Flashkarten und auf der Festplatte ist billig - man kann nach Herzenslust drauflos knipsen. Björn Ommer sieht Digitalfotos jedoch mit anderen Augen.

Für Ommer, Experte für Bildverarbeitung an der Universität Heidelberg, sind die Bilder ein riesiges, derzeit kaum beherrschbares Problem. "Für einen Computer ist ein Foto kaum mehr als ein Pixelhaufen", sagt der Professor. Software sei bislang kaum in der Lage, den Inhalt von Bildern zu erkennen. Wer nach Bildern mit bestimmtem Inhalt sucht, ist auf eine gute Verschlagwortung (Tags) angewiesen. Fehlt diese, dann sind Fotos praktisch nicht zu finden - außer man schaut sie sich einzeln an und ergänzt die beschreibenden Begriffe per Hand für spätere Suchanfragen.

Das ist jedoch kaum eine sinnvolle Option: Allein beim Fotoportal Flickr dürften Nutzer mittlerweile mehr als sechs Milliarden Bilder hochgeladen haben. Pro Minute kommen mehr als 3000 neue hinzu. Wollte man diese per Hand verschlagworten - sagen wir mit zehn Tags pro Bild - und nimmt man an, dass dies pro Bild etwa 30 Sekunden dauert, dann brauchte man rund um die Uhr etwa 1500 Personen, die permanent mit dem Zuordnen von Begriffen beschäftigt wären. Viele Flickr-Nutzer machen dies natürlich selbst, aber der Umfang der Tags und die Kriterien ihrer Auswahl sind sehr verschieden.

"Unser Ziel ist eine Software, die wie ein Kind lernt, was auf einem Bild zu sehen ist", sagt Ommer. "Wir zeigen ihr auf Trainingsbildern zum Beispiel Autos, Fahrräder, Häuser. Nach dem Training erkennt die Software auf ihr bislang unbekannten Bildern, was darauf zu sehen ist." Das Programm solle lernen, was ein Auto und ein Fahrrad auszeichnet. Sie abstrahiere dies aus den Trainingsbildern.

Kunsthistoriker versinken in Bilderflut

Auf dem International Congress on Industrial and Applied Mathematics (ICIAM)  in Vancouver hat der Heidelberger Professor gerade eine Software vorgestellt, mit der Bilder aus dem Mittelalter gezielt nach Kronen aller Art und Gesten wie Schwören und Zeigen durchsucht werden können. "Die Kollegen aus der Kunstgeschichte sind auf uns zugekommen, weil sie Hilfe bei der Bildsuche brauchten." An vielen Bibliotheken weltweit gebe es große Digitalisierungsprojekte, was ein großer Fortschritt für die Forscher sei, weil sie so Zugriff auf immer mehr Material bekämen. Die ständig wachsenden Datenmengen werden jedoch zum Problem: "Diese Scans vernünftig zu verschlagworten, ist kaum noch möglich."

Deshalb setzen Kunsthistoriker große Hoffnungen in die automatische Inhaltsanalyse, weil sie darin eine Chance sehen, die gigantischen Bilderberge auswerten zu können. "Der Computer soll die Wissenschaftler unterstützen", sagt Ommer. "Wir müssen die Maschine als Filter nutzen." Software könne beispielsweise helfen, Bilder mit einer Krone vorab zu selektieren und dabei bislang verborgene Zusammenhänge offenzulegen.

Die in Heidelberg entwickelte Software kann derzeit etwa hundert Objektarten unterscheiden - darunter Kronen, Gesten, Schwerter und Autos. Ziel der Forscher sind Algorithmen, die unabhängig von einer spezifischen Objektklasse sind. "Ein wesentliches Problem dabei ist die große Variabilität von vielen Objektkategorien", sagt Ommer. Stühle beispielsweise könnten sehr unterschiedlich aussehen. Die meisten haben vier Beine, es gibt aber auch andere Designs. "In solchen Fällen sind bislang nur Teillösungen praktikabel, zum Beispiel bestimmte Arten von Stühlen." Von einer universellen, lernfähigen Bildanalyse-Software, die Hunderte Objekte gleichermaßen gut identifiziert, selbst wenn diese teils verdeckt sind, sind die Wissenschaftler nach wie vor weit entfernt.

Ommer hat einige Zeit an der Computer Vision Group der University of California in Berkeley geforscht und dabei auch mit Bildexperten von Google zusammengearbeitet. Für den Suchmaschinengiganten wäre eine automatische Inhaltserkennung von Fotos ein großer Fortschritt, die Bildersuche funktioniert bisher mehr schlecht als recht. Fehlen im Namen eines Bildes oder im Text auf der Webseite wichtige Schlagwörter, weiß die Suchmaschine nichts über den Bildinhalt.

Gesichter werden erkannt

Das einzige, was Google in den erweiterten Suchoptionen bisher anbietet, sind Filter für Gesichter, Fotos und Zeichnungen. "Google sucht nach Algorithmen, die pro Bild nur Sekundenbruchteile brauchen", berichtet Ommer. Deshalb könne die Suchmaschine bislang nur Gesichter identifizieren. Die Algorithmen dafür seien inzwischen günstig verfügbar und sehr effizient. Selbst viele Digitalkameras erkennen Gesichter - gelegentliche Fehler nicht ausgeschlossen.

Der Gesichtsdetektor löst das Problem der Inhaltserkennung von Fotos jedoch nicht - im Gegenteil. Forscher könnten zwar weitere Algorithmen entwickeln, die speziell auf das Erkennen von Hunden oder Autos zugeschnitten sind. Weil es auf der Welt aber nicht nur eine Handvoll Objektkategorien gibt, sondern Zehntausende oder gar Hunderttausende, funktioniert der Ansatz eines individuellen Algorithmus für jedes einzelne Objekt kaum. Zudem würde der Rechenaufwand pro Bild mit der Zahl der zu erkennenden Objekte steigen. Denn die Software müsste ein Bild nacheinander nach all den bekannten Objekten mit dem jeweils dafür geschriebenen Algorithmus durchsuchen.

Umso erstaunlicher ist daher, dass wir Menschen es schaffen, innerhalb kürzester Zeit zu erkennen, was auf einem Bild zu sehen ist. Das über Hunderttausende Jahre in der Musteranalyse immer weiter verbesserte Gehirn ist einem hochgerüsteten Computer nach wie vor haushoch überlegen.

Ommer ist jedoch optimistisch, dass es eines Tages tatsächlich gelingt, Computern das Sehen beizubringen. "Wir haben gar keine andere Chance. Ich glaube, dass es machbar ist, aber es hängt auch von den Algorithmen ab." Eine mögliche Idee dafür ist, dass die Software Objekte in ihre wesentlichen Bestandteile zerlegt. Bei einem Auto sind das beispielsweise Räder, Stoßstangen, Fenster, Türen. Falls auf einem Bild eines dieser Teile zu sehen ist, macht die Software dahinter quasi einen Haken.

Der Vorteil einer solchen Zerlegung liegt auf der Hand: Die Software könnte im Nachhinein neue Objekte erlernen und identifizieren, ohne die Bilder nochmals analysieren zu müssen. Hat ein Auto beispielsweise sechs statt vier Räder, dann ist es womöglich ein Lkw.

Die Wiedergabe wurde unterbrochen.
Merkliste
Speichern Sie Ihre Lieblingsartikel in der persönlichen Merkliste, um sie später zu lesen und einfach wiederzufinden.
Jetzt anmelden
Sie haben noch kein SPIEGEL-Konto? Jetzt registrieren
Mehrfachnutzung erkannt
Bitte beachten Sie: Die zeitgleiche Nutzung von SPIEGEL+-Inhalten ist auf ein Gerät beschränkt. Wir behalten uns vor, die Mehrfachnutzung zukünftig technisch zu unterbinden.
Sie möchten SPIEGEL+ auf mehreren Geräten zeitgleich nutzen? Zu unseren Angeboten