Microsoft-Entwickler über Apps für Blinde "Künstliche Intelligenz ist wie ein dreijähriges Kind"

"Seeing AI" soll Blinden und Sehbehinderten den Alltag erleichtern. Nun gibt es die Microsoft-App auch auf Deutsch. Wir fragen ihren Chefentwickler Saqib Shaikh nach den Grenzen der Technik.

Microsoft-Entwickler Saqib Shaikh
Elaine Thompson/ AP

Microsoft-Entwickler Saqib Shaikh

Ein Interview von


Das Smartphone liest Rezepte vor, beschreibt Urlaubsfotos und erkennt Freunde auf Partys: Mit der iPhone-Anwendung "Seeing AI" hat Microsoft vor zwei Jahren einen digitalen Begleiter für Menschen mit visuellen Einschränkungen veröffentlicht. Seit dem heutigen Dienstag gibt es die App zusätzlich zur englischen Version auch auf Französisch, Spanisch, Niederländisch, Japanisch und Deutsch.

Im Gespräch mit dem SPIEGEL erklärt Saqib Shaikh, Chefentwickler der App bei Microsoft, welche neuen Funktionen der Anwendung die künstliche Intelligenz (KI) erst ermöglicht hat. Er spricht über seine Vision von digitalen Begleitern für sehbehinderte und blinde Menschen, aber auch über die Probleme, vor denen die Entwickler stehen und warum man für die Technologie viel Geduld mitbringen muss.

Zur Person
  • Microsoft
    Saqib Shaikh ist als Chefentwickler bei Microsoft für die App "Seeing AI" verantwortlich. Shaikh verlor sein Augenlicht im Alter von sieben Jahren. Bei Microsoft hat er die Suchmaschine Bing und die Sprachassistentin Cortana mitentwickelt. Mittlerweile beschäftigt sich Shaikh vor allem damit, wie Künstliche Intelligenz das Leben von Menschen mit visuellen Einschränkungen erleichtern kann.

SPIEGEL: Herr Shaikh, vor 15 Jahren hatten Sie zum ersten Mal die Idee, einen digitalen Begleiter für Menschen mit einer Sehbehinderung zu entwickeln. Ist künstliche Intelligenz die Technologie, auf die Sie schon immer gewartet haben?

Shaikh: Wir haben riesige Fortschritte gemacht bei der Forschung mit künstlicher Intelligenz. Aber wir sind noch viele Jahre davon entfernt, dass Computer sich umschauen und alles verstehen, was sie sehen. Ich bin selbst blind und gehe daher gerne mit meiner Frau und meinen Freunden spazieren. Wir diskutieren dann darüber, was sie unterwegs sehen. Sie sagen mir dann, wenn sie etwas Spannendes entdecken, oder ich frage nach, wenn ich ein Geräusch nicht zuordnen kann. Ich wünsche mir, dass eine KI genau das eines Tages übernehmen kann. Wie ein persönlicher Assistent.

SPIEGEL: Wie lange müssen wir denn noch warten, bis digitale Helfer einen menschlichen Begleiter ersetzen?

Shaikh: Es ist sehr schwierig, in die Zukunft zu blicken. Ich kann nur wild spekulieren. Ich weiß nicht, ob es noch zwei, drei, vier oder fünf Jahre dauern wird. Es passiert so viel auf dem Gebiet. Jedes Jahr gibt es einerseits so viele Fortschritte, andererseits stoßen wir aber auch auf extrem große Herausforderungen. Es ist beispielsweise immer noch sehr schwierig für eine KI zu erkennen, was genau Menschen in einer bestimmten Situation gerade machen.

SPIEGEL: Was kann KI denn schon richtig gut?

Shaikh: In den vergangenen Jahren haben Computer wahnsinnig schnell gelernt, klar definierte Aufgaben von Menschen zu übernehmen. Vor allem Bilder und Sprache erkennen sie immer besser. Auf diesen Gebieten ist künstliche Intelligenz am weitesten fortgeschritten. Dank dieser Technik kann man mit "Seeing AI" beispielsweise Fotos ertasten. Der Anwender berührt dafür das Display seines Smartphones, um zu erfahren, ob Text, ein Gesicht oder ein anderes Objekt unter dem Finger zu sehen ist.

SPIEGEL: Die Texterkennung von "Seeing AI" funktioniert ziemlich gut. Aber die Szenenerkennung ist noch extrem fehlerhaft. Kinderrutschen verwechselt die App mit Hydranten, runde Fenster werden als Stoppschilder interpretiert und aus Steinbänken werden Grabsteine. Was ist so schwierig daran, Objekte zu erkennen?

Shaikh: Künstliche Intelligenz kann man sich wie ein dreijähriges Kind vorstellen. Man zeigt ihm viele Bilder und erklärt ihm: "Das ist ein Auto. Das ist ein Baum. Das ist ein Hund." Am Anfang erkennt das Kind nur Dinge, die es bereits gesehen hat. Dann fängt es an, diese Dinge in Sätzen zu beschreiben. Wie ein Kind wird auch die künstliche Intelligenz mit der Zeit besser. Wissenschaftler arbeiten zudem daran, dass die Trainingsmethoden immer besser werden.

SPIEGEL: Es ist eine ziemlich große Verantwortung, Blinde und Sehbehinderte mit einer App durch die Welt zu lotsen.

Shaikh: Ja. Aber es ist ein Forschungsprojekt. Viele Funktionen sind immer noch sehr experimentell. Dennoch wollen wir den Nutzern die Möglichkeit geben, möglichst früh bei neu entwickelten Microsoft-Technologien mitzumachen. Wir profitieren davon, dass die Nutzer uns mitteilen, was sie von den Funktionen halten. Wir entwickeln die App zusammen mit unseren Kunden.

SPIEGEL: Stört es die Nutzer, dass die App immer wieder Fehler macht?

Shaikh: Für einige muss es gar nicht perfekt sein. Ein Nutzer hat mir etwa erzählt, dass er Urlaubsfotos an seine Familie zu Hause schicken wollte. Auch wenn die App nicht alles genau erkannt hat, konnte er zumindest die Fotos unterscheiden und die richtigen Bilder auswählen. Ein anderer hat mir erzählt, dass er die Umgebung scannt, um zu sehen, ob sich ein Foto für Facebook anbietet. Dafür reichte ihm eine grobe Beschreibung der App. Ein anderer hat uns berichtet, dass er mit der App den Fernseher bei Football-Spielen abfilmt, um das Ergebnis zu erfahren. Der Kommentator hatte den Zwischenstand zu selten erwähnt. Andere scannen Getränkedosen, um eine Cola von einer Diät-Cola zu unterscheiden. Alle diese Kleinigkeiten machen die App zu einem nützlichen Begleiter.

SPIEGEL: Unternehmen wie Google und Facebook machen viel Wirbel um ihre KI-Forschungen, gewinnen Duelle gegen Go-Champions und besiegen professionelle Pokerspieler. Was macht Microsoft im Wettstreit um die KI-Vormachtstellung?

Shaikh: Wir sehen bei KI sehr viel Potenzial, um mit "Seeing AI" vor allem das Leben von Menschen mit Sehbehinderung zu verbessern. Aber unsere Kollegen entwickeln zum Beispiel auch Tools für Schwerhörige, um Untertitel in Echtzeit anzuzeigen. Außerdem gibt es zahlreiche andere Beispiele wie "Eye Gaze", womit man allein mit Augenbewegungen einen Windows-PC steuern kann.



insgesamt 7 Beiträge
Alle Kommentare öffnen
Seite 1
didel-m 03.12.2019
1. Aber erst in 300 Jahren. Oder so. Wenn überhaupt
Das Thema KI wird maßlos missverstanden. Übertrieben sowieso. Denn KI kann sich seinen Datensatz nicht aus eigenem Antrieb zu eigenem Ziel aussuchen und untersuchen. Alles ist in einem Rahmen vorgegeben. Also nur eine Ansammlung effizienter Algorithmen. Was natülich nicht heisst, da es dafür viele Anwendungen gibt, wo derartige z.B. Optimierungen gefragt sind..
napoleonwilson 03.12.2019
2. KI und Co
Was bitte hat eine App mit KI zu tun ? Hier wird am Thema vorbei berichtet. Es gibt noch keine KI. Die Unterscheidung in schwache KI und starke KI... Was denn nun ? Ich verfolge die Entwicklung seit 30 Jahren. Und wir sind immer noch Lichtjahre von einer KI entfernt, die den Turing Test besteht. Für die Angelesenen ist ein Expertensystem für GO Schach div. Strategie Spiele bereits eine KI. Alexa Siri dito. Die gleiche Naivität herrscht beim Thema Quantencomputer vor. Eine Technologie, die kein Physiker wirklich erklären kann. Und ob eine Umsetzung überhaupt möglich sein wird steht in den Sternen.
Knossos 03.12.2019
3.
KI ist heute schon herausragend darin, Analoges und Korrelation auszumachen. Damit kann es sich bereits in Materialkunde oder Pharmakologie effektiv nützlich machen, wie zuvor kein Mensch. Was wir Laien allerdings mehr oder weniger bewußt erwarten, das ist bewußte KI. Eine Erwartung, die zum einen der Projektion eines Smartphones nach Einführung des Telegraphenamtes gleichkommt, und zugleich nicht abwegig ist. Von daher sind weder Unkenrufe ob unserer Überlegenheit bezüglich simpler Einschätzung von Dimensionen sonderlich hellsichtig, noch zum anderen voreiliges Vertrauen in Fahrroboter oder die Vorwegnahme bewußter KI innerhalb kürzester Zeit. Verhältnismäßig hingegen, zu erkennen, wozu die neue Technik autark / ohne Anbindung an Datenzentren in der Lage ist, und wohin die Reise geht. Wem das schwerfällt, der möge sich daran erinnern, wie Zahlungsverkehr über Kreditkarten zunächst scheiterte und verrissen wurde, oder wie die Prognosen zu Flachbildschirmen oder zu digitaler Photographie aussahen. Dinge, welche Jahrzehnte zurückliegender Einschätzung nach heute noch ungelenke Praxisferne darzustellen hätten. KI wird sehr bald schon unsere Einfältigkeit und Begriffslosigkeit aufzeigen, und bald danach unterstützend darin sein, unserem zerebralen Potenzial näher zu kommen. Wenn unserer endgültigen Verwüstung des Planeten etwas entgegensetzt werden sollte, dann sehr vermutlich durch KI vor sich besinnendem / human werdendem Menschen.
Liudin69 03.12.2019
4. Die meisten 3-jährigen sind erwachsenen Menschen überlegen
Empathie wird der Schlüssel zum Erfolg der KI sein. Und ich hoffe, dass wir leiminiert werden, bevor das Klima vollständig kippt. Zum Glück neigt sich unser Entwicklungspotenzial langsam dem Ende zu. Wir haben diesem Planeten schon viel zu viel Leid zugefügt. Ich hoffe, die KI hilft uns bei der Selbstabschaffung.
Loewe101 03.12.2019
5. Leben 3.0
Zitat von didel-mDas Thema KI wird maßlos missverstanden. Übertrieben sowieso. Denn KI kann sich seinen Datensatz nicht aus eigenem Antrieb zu eigenem Ziel aussuchen und untersuchen. Alles ist in einem Rahmen vorgegeben. Also nur eine Ansammlung effizienter Algorithmen. Was natülich nicht heisst, da es dafür viele Anwendungen gibt, wo derartige z.B. Optimierungen gefragt sind..
Für alle Skeptiker oder Verleugner was "KI" alles schon kann und bald schon können wird, empfehle ich das in meiner Überschrift genannte Buch von dem brillanten Physiker und Mathematiker Max Tegmark, der sich an vorderster Front mit KI beschäftigt. Lesen Sie das Buch und dann können Sie hier zu dem Thema qualifizierte Kommentare abgeben.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2019
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.