Automatische Bildanalyse Blinde Computer sollen sehen lernen

Ein Schloss! Ein Schuh! Der Himmel! Wir Menschen erfassen den Inhalt von Fotos binnen Sekundenbruchteilen. Computer sind damit jedoch vollkommen überfordert. Nun bringen Forscher den Maschinen das Sehen bei - ein Vorhaben, von dem auch Google profitieren will.

Uni Heidelberg/ Björn Ommer

Aus Vancouver berichtet


Für den Otto-Normal-Anwender sind Digitalfotos leicht zu handhaben. Die Auflösung der Kameras ist gigantisch, die Bildqualität hervorragend. Speicherplatz auf den Flashkarten und auf der Festplatte ist billig - man kann nach Herzenslust drauflos knipsen. Björn Ommer sieht Digitalfotos jedoch mit anderen Augen.

Für Ommer, Experte für Bildverarbeitung an der Universität Heidelberg, sind die Bilder ein riesiges, derzeit kaum beherrschbares Problem. "Für einen Computer ist ein Foto kaum mehr als ein Pixelhaufen", sagt der Professor. Software sei bislang kaum in der Lage, den Inhalt von Bildern zu erkennen. Wer nach Bildern mit bestimmtem Inhalt sucht, ist auf eine gute Verschlagwortung (Tags) angewiesen. Fehlt diese, dann sind Fotos praktisch nicht zu finden - außer man schaut sie sich einzeln an und ergänzt die beschreibenden Begriffe per Hand für spätere Suchanfragen.

Das ist jedoch kaum eine sinnvolle Option: Allein beim Fotoportal Flickr dürften Nutzer mittlerweile mehr als sechs Milliarden Bilder hochgeladen haben. Pro Minute kommen mehr als 3000 neue hinzu. Wollte man diese per Hand verschlagworten - sagen wir mit zehn Tags pro Bild - und nimmt man an, dass dies pro Bild etwa 30 Sekunden dauert, dann brauchte man rund um die Uhr etwa 1500 Personen, die permanent mit dem Zuordnen von Begriffen beschäftigt wären. Viele Flickr-Nutzer machen dies natürlich selbst, aber der Umfang der Tags und die Kriterien ihrer Auswahl sind sehr verschieden.

"Unser Ziel ist eine Software, die wie ein Kind lernt, was auf einem Bild zu sehen ist", sagt Ommer. "Wir zeigen ihr auf Trainingsbildern zum Beispiel Autos, Fahrräder, Häuser. Nach dem Training erkennt die Software auf ihr bislang unbekannten Bildern, was darauf zu sehen ist." Das Programm solle lernen, was ein Auto und ein Fahrrad auszeichnet. Sie abstrahiere dies aus den Trainingsbildern.

Kunsthistoriker versinken in Bilderflut

Auf dem International Congress on Industrial and Applied Mathematics (ICIAM) in Vancouver hat der Heidelberger Professor gerade eine Software vorgestellt, mit der Bilder aus dem Mittelalter gezielt nach Kronen aller Art und Gesten wie Schwören und Zeigen durchsucht werden können. "Die Kollegen aus der Kunstgeschichte sind auf uns zugekommen, weil sie Hilfe bei der Bildsuche brauchten." An vielen Bibliotheken weltweit gebe es große Digitalisierungsprojekte, was ein großer Fortschritt für die Forscher sei, weil sie so Zugriff auf immer mehr Material bekämen. Die ständig wachsenden Datenmengen werden jedoch zum Problem: "Diese Scans vernünftig zu verschlagworten, ist kaum noch möglich."

Deshalb setzen Kunsthistoriker große Hoffnungen in die automatische Inhaltsanalyse, weil sie darin eine Chance sehen, die gigantischen Bilderberge auswerten zu können. "Der Computer soll die Wissenschaftler unterstützen", sagt Ommer. "Wir müssen die Maschine als Filter nutzen." Software könne beispielsweise helfen, Bilder mit einer Krone vorab zu selektieren und dabei bislang verborgene Zusammenhänge offenzulegen.

Die in Heidelberg entwickelte Software kann derzeit etwa hundert Objektarten unterscheiden - darunter Kronen, Gesten, Schwerter und Autos. Ziel der Forscher sind Algorithmen, die unabhängig von einer spezifischen Objektklasse sind. "Ein wesentliches Problem dabei ist die große Variabilität von vielen Objektkategorien", sagt Ommer. Stühle beispielsweise könnten sehr unterschiedlich aussehen. Die meisten haben vier Beine, es gibt aber auch andere Designs. "In solchen Fällen sind bislang nur Teillösungen praktikabel, zum Beispiel bestimmte Arten von Stühlen." Von einer universellen, lernfähigen Bildanalyse-Software, die Hunderte Objekte gleichermaßen gut identifiziert, selbst wenn diese teils verdeckt sind, sind die Wissenschaftler nach wie vor weit entfernt.

Ommer hat einige Zeit an der Computer Vision Group der University of California in Berkeley geforscht und dabei auch mit Bildexperten von Google zusammengearbeitet. Für den Suchmaschinengiganten wäre eine automatische Inhaltserkennung von Fotos ein großer Fortschritt, die Bildersuche funktioniert bisher mehr schlecht als recht. Fehlen im Namen eines Bildes oder im Text auf der Webseite wichtige Schlagwörter, weiß die Suchmaschine nichts über den Bildinhalt.

Gesichter werden erkannt

Das einzige, was Google in den erweiterten Suchoptionen bisher anbietet, sind Filter für Gesichter, Fotos und Zeichnungen. "Google sucht nach Algorithmen, die pro Bild nur Sekundenbruchteile brauchen", berichtet Ommer. Deshalb könne die Suchmaschine bislang nur Gesichter identifizieren. Die Algorithmen dafür seien inzwischen günstig verfügbar und sehr effizient. Selbst viele Digitalkameras erkennen Gesichter - gelegentliche Fehler nicht ausgeschlossen.

Der Gesichtsdetektor löst das Problem der Inhaltserkennung von Fotos jedoch nicht - im Gegenteil. Forscher könnten zwar weitere Algorithmen entwickeln, die speziell auf das Erkennen von Hunden oder Autos zugeschnitten sind. Weil es auf der Welt aber nicht nur eine Handvoll Objektkategorien gibt, sondern Zehntausende oder gar Hunderttausende, funktioniert der Ansatz eines individuellen Algorithmus für jedes einzelne Objekt kaum. Zudem würde der Rechenaufwand pro Bild mit der Zahl der zu erkennenden Objekte steigen. Denn die Software müsste ein Bild nacheinander nach all den bekannten Objekten mit dem jeweils dafür geschriebenen Algorithmus durchsuchen.

Umso erstaunlicher ist daher, dass wir Menschen es schaffen, innerhalb kürzester Zeit zu erkennen, was auf einem Bild zu sehen ist. Das über Hunderttausende Jahre in der Musteranalyse immer weiter verbesserte Gehirn ist einem hochgerüsteten Computer nach wie vor haushoch überlegen.

Ommer ist jedoch optimistisch, dass es eines Tages tatsächlich gelingt, Computern das Sehen beizubringen. "Wir haben gar keine andere Chance. Ich glaube, dass es machbar ist, aber es hängt auch von den Algorithmen ab." Eine mögliche Idee dafür ist, dass die Software Objekte in ihre wesentlichen Bestandteile zerlegt. Bei einem Auto sind das beispielsweise Räder, Stoßstangen, Fenster, Türen. Falls auf einem Bild eines dieser Teile zu sehen ist, macht die Software dahinter quasi einen Haken.

Der Vorteil einer solchen Zerlegung liegt auf der Hand: Die Software könnte im Nachhinein neue Objekte erlernen und identifizieren, ohne die Bilder nochmals analysieren zu müssen. Hat ein Auto beispielsweise sechs statt vier Räder, dann ist es womöglich ein Lkw.



Forum - Diskutieren Sie über diesen Artikel
insgesamt 4 Beiträge
Alle Kommentare öffnen
Seite 1
gammaburst 22.07.2011
1. Nichts neues...
Morgen, also der Artikel bringt keine wirklich neuen Entwicklungen oder Erkenntnisse (ist das schon ein Sommerloch-Füller?). Die Forschung im Bereich Computer Vision beschäftigt sich mit dem Thema Objektkategorisierung schon lange und es gibt duzende von Ansätzen, von denen die meisten auf Lernkonzepten aufsetzen und evtl. noch besser und schneller sind, als die Software der Heidelberger. Es wäre schön gewesen, wenn dieser Artikel nicht alleine zur Selbstdarstellung eines Heidelberger Wissenschaftlers verfasst worden wäre. Jedes Jahr werden bei Kongressen (z.B. ECCV) neue und verbesserte Ansätze präsentiert, wo bleiben die? (und Kronen zu erkennen ist für viele andere Systeme auch gar kein Problem...)
merapi22 22.07.2011
2. Jeder Haushalt einen perfekten Roboter, der alles kann wie ein Mensch!
Zitat von sysopEin Schloss! Ein Schuh! Der Himmel! Wir*Menschen*erfassen den Inhalt von Fotos binnen Sekundenbruchteilen. Computer sind damit jedoch vollkommen überfordert. Nun*bringen Forscher den Maschinen das Sehen bei - ein Vorhaben, von dem auch Google profitieren will. http://www.spiegel.de/netzwelt/gadgets/0,1518,775650,00.html
Das aus Robotern richtige Menschen werden, die uns alle Arbeit abnehmen, bedarf es besserer optischer Wahrnehmung. Bald hat jeder Haushalt einen Roboter, wie es Bill Gates für 2012 vorhergesagt hat. http://www.facebook.com/pages/BGE-Roboter-konnen-alles-besser/177235832301157 Roboter könnten bald mit Infrarot alles besser wahrnehmen als der Mensch und wären in Fukushima die besseren Katastrophen-Helfer!
Hans Blafoo 22.07.2011
3. Kein Titel
Zitat von gammaburstMorgen, also der Artikel bringt keine wirklich neuen Entwicklungen oder Erkenntnisse (ist das schon ein Sommerloch-Füller?). Die Forschung im Bereich Computer Vision beschäftigt sich mit dem Thema Objektkategorisierung schon lange und es gibt duzende von Ansätzen, von denen die meisten auf Lernkonzepten aufsetzen und evtl. noch besser und schneller sind, als die Software der Heidelberger. Es wäre schön gewesen, wenn dieser Artikel nicht alleine zur Selbstdarstellung eines Heidelberger Wissenschaftlers verfasst worden wäre. Jedes Jahr werden bei Kongressen (z.B. ECCV) neue und verbesserte Ansätze präsentiert, wo bleiben die? (und Kronen zu erkennen ist für viele andere Systeme auch gar kein Problem...)
Guter Kommentar, genauso sehe ich das auch.
Parzival v. d. Dräuen 22.07.2011
4. .
Zitat von Hans BlafooGuter Kommentar, genauso sehe ich das auch.
Ansätze der Lernfähigkeit visueller Muster existieren schon bei einfachen Systemen (http://www.youtube.com/watch?v=1GhNXHCQGsM&feature=player_embedded&ref=nf). So neu ist die Sache wirklich nicht. Um nahezu lückenlose Bewegungsprofile von Menschen zu erstellen, braucht es da nicht mehr lange. Eine PKW-Maut nebst öffentlichen Kameras würde die Sache selbstverständlich erleichtern.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2011
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.