Microsoft-Entwickler über Apps für Blinde "Künstliche Intelligenz ist wie ein dreijähriges Kind"

"Seeing AI" soll Blinden und Sehbehinderten den Alltag erleichtern. Nun gibt es die Microsoft-App auch auf Deutsch. Wir fragen ihren Chefentwickler Saqib Shaikh nach den Grenzen der Technik.
Microsoft-Entwickler Saqib Shaikh

Microsoft-Entwickler Saqib Shaikh

Foto: Elaine Thompson/ AP

Das Smartphone liest Rezepte vor, beschreibt Urlaubsfotos und erkennt Freunde auf Partys: Mit der iPhone-Anwendung "Seeing AI"  hat Microsoft vor zwei Jahren einen digitalen Begleiter für Menschen mit visuellen Einschränkungen veröffentlicht. Seit dem heutigen Dienstag gibt es die App zusätzlich zur englischen Version auch auf Französisch, Spanisch, Niederländisch, Japanisch und Deutsch.

Im Gespräch mit dem SPIEGEL erklärt Saqib Shaikh, Chefentwickler der App bei Microsoft, welche neuen Funktionen der Anwendung die künstliche Intelligenz (KI) erst ermöglicht hat. Er spricht über seine Vision von digitalen Begleitern für sehbehinderte und blinde Menschen, aber auch über die Probleme, vor denen die Entwickler stehen und warum man für die Technologie viel Geduld mitbringen muss.

Zur Person
Foto: Microsoft

Saqib Shaikh ist als Chefentwickler bei Microsoft für die App "Seeing AI" verantwortlich. Shaikh verlor sein Augenlicht im Alter von sieben Jahren. Bei Microsoft hat er die Suchmaschine Bing und die Sprachassistentin Cortana mitentwickelt. Mittlerweile beschäftigt sich Shaikh vor allem damit, wie Künstliche Intelligenz das Leben von Menschen mit visuellen Einschränkungen erleichtern kann.

SPIEGEL: Herr Shaikh, vor 15 Jahren hatten Sie zum ersten Mal die Idee, einen digitalen Begleiter für Menschen mit einer Sehbehinderung zu entwickeln. Ist künstliche Intelligenz die Technologie, auf die Sie schon immer gewartet haben?

Shaikh: Wir haben riesige Fortschritte gemacht bei der Forschung mit künstlicher Intelligenz. Aber wir sind noch viele Jahre davon entfernt, dass Computer sich umschauen und alles verstehen, was sie sehen. Ich bin selbst blind und gehe daher gerne mit meiner Frau und meinen Freunden spazieren. Wir diskutieren dann darüber, was sie unterwegs sehen. Sie sagen mir dann, wenn sie etwas Spannendes entdecken, oder ich frage nach, wenn ich ein Geräusch nicht zuordnen kann. Ich wünsche mir, dass eine KI genau das eines Tages übernehmen kann. Wie ein persönlicher Assistent.

SPIEGEL: Wie lange müssen wir denn noch warten, bis digitale Helfer einen menschlichen Begleiter ersetzen?

Shaikh: Es ist sehr schwierig, in die Zukunft zu blicken. Ich kann nur wild spekulieren. Ich weiß nicht, ob es noch zwei, drei, vier oder fünf Jahre dauern wird. Es passiert so viel auf dem Gebiet. Jedes Jahr gibt es einerseits so viele Fortschritte, andererseits stoßen wir aber auch auf extrem große Herausforderungen. Es ist beispielsweise immer noch sehr schwierig für eine KI zu erkennen, was genau Menschen in einer bestimmten Situation gerade machen.

SPIEGEL: Was kann KI denn schon richtig gut?

Shaikh: In den vergangenen Jahren haben Computer wahnsinnig schnell gelernt, klar definierte Aufgaben von Menschen zu übernehmen. Vor allem Bilder und Sprache erkennen sie immer besser. Auf diesen Gebieten ist künstliche Intelligenz am weitesten fortgeschritten. Dank dieser Technik kann man mit "Seeing AI" beispielsweise Fotos ertasten. Der Anwender berührt dafür das Display seines Smartphones, um zu erfahren, ob Text, ein Gesicht oder ein anderes Objekt unter dem Finger zu sehen ist.

SPIEGEL: Die Texterkennung von "Seeing AI" funktioniert ziemlich gut. Aber die Szenenerkennung ist noch extrem fehlerhaft. Kinderrutschen verwechselt die App mit Hydranten, runde Fenster werden als Stoppschilder interpretiert und aus Steinbänken werden Grabsteine. Was ist so schwierig daran, Objekte zu erkennen?

Shaikh: Künstliche Intelligenz kann man sich wie ein dreijähriges Kind vorstellen. Man zeigt ihm viele Bilder und erklärt ihm: "Das ist ein Auto. Das ist ein Baum. Das ist ein Hund." Am Anfang erkennt das Kind nur Dinge, die es bereits gesehen hat. Dann fängt es an, diese Dinge in Sätzen zu beschreiben. Wie ein Kind wird auch die künstliche Intelligenz mit der Zeit besser. Wissenschaftler arbeiten zudem daran, dass die Trainingsmethoden immer besser werden.

SPIEGEL: Es ist eine ziemlich große Verantwortung, Blinde und Sehbehinderte mit einer App durch die Welt zu lotsen.

Shaikh: Ja. Aber es ist ein Forschungsprojekt. Viele Funktionen sind immer noch sehr experimentell. Dennoch wollen wir den Nutzern die Möglichkeit geben, möglichst früh bei neu entwickelten Microsoft-Technologien mitzumachen. Wir profitieren davon, dass die Nutzer uns mitteilen, was sie von den Funktionen halten. Wir entwickeln die App zusammen mit unseren Kunden.

SPIEGEL: Stört es die Nutzer, dass die App immer wieder Fehler macht?

Shaikh: Für einige muss es gar nicht perfekt sein. Ein Nutzer hat mir etwa erzählt, dass er Urlaubsfotos an seine Familie zu Hause schicken wollte. Auch wenn die App nicht alles genau erkannt hat, konnte er zumindest die Fotos unterscheiden und die richtigen Bilder auswählen. Ein anderer hat mir erzählt, dass er die Umgebung scannt, um zu sehen, ob sich ein Foto für Facebook anbietet. Dafür reichte ihm eine grobe Beschreibung der App. Ein anderer hat uns berichtet, dass er mit der App den Fernseher bei Football-Spielen abfilmt, um das Ergebnis zu erfahren. Der Kommentator hatte den Zwischenstand zu selten erwähnt. Andere scannen Getränkedosen, um eine Cola von einer Diät-Cola zu unterscheiden. Alle diese Kleinigkeiten machen die App zu einem nützlichen Begleiter.

SPIEGEL: Unternehmen wie Google und Facebook machen viel Wirbel um ihre KI-Forschungen, gewinnen Duelle gegen Go-Champions und besiegen professionelle Pokerspieler. Was macht Microsoft im Wettstreit um die KI-Vormachtstellung?

Shaikh: Wir sehen bei KI sehr viel Potenzial, um mit "Seeing AI" vor allem das Leben von Menschen mit Sehbehinderung zu verbessern. Aber unsere Kollegen entwickeln zum Beispiel auch Tools für Schwerhörige, um Untertitel in Echtzeit anzuzeigen. Außerdem gibt es zahlreiche andere Beispiele wie "Eye Gaze", womit man allein mit Augenbewegungen einen Windows-PC steuern kann.

Die Wiedergabe wurde unterbrochen.