Atari-Spiele Künstliche Intelligenz zockt besser als der Mensch

In Brettspielen wie Schach oder Go haben Menschen schon lange keine Chance mehr gegen Computer. An uralten Konsolenspielen sind KI-Systeme allerdings teils gescheitert. Bis jetzt.
Atari-Konsole: Jump ’n’ Run-Spiele für KI-Systeme

Atari-Konsole: Jump ’n’ Run-Spiele für KI-Systeme

Foto: Robee Shepherd / FlickrVision / Getty Images

Wenn es um komplexe Spiele geht, zieht der Mensch gegen Computer meist den kürzeren. Künstliche Intelligenz (KI) hat bereits Spitzenspieler beim Schach oder dem asiatischen Brettspiel Go geschlagen. Sogar beim Curling, wo es neben taktischem Geschick auch auf Fingerspitzengefühl ankommt, unterlagen erfahrene Teams  schon der Technik.

Umso erstaunlicher, dass bei manchen Computerspielen aus der Urzeit der Branche bisher der Mensch die Nase vorne hatte. Bis jetzt. Denn ein Computersystem namens Go-Explore schnitt nun gegen menschliche Gegner in allen Spielen für den Atari 2600 besser ab.

Wohl gemerkt: Die Konsole kam im Jahr 1977 auf den Markt. Aber bei Spielen wie »Pitfall« führten die bisher angewendeten Algorithmen nicht zum Erfolg. Das Jump ’n’ Run-Spiel von 1982, bei dem die Figur Pitfall Harry per Joystick durch eine Dschungellandschaft gesteuert wird und Hindernissen ausweichen muss, war zu komplex für die Technik.

Forscher entwickelten für solche Aufgaben nun eine Art Umgebungsgedächtnis. Das Computersystem baut beim Erkunden der Spielumgebung ein Archiv auf und greift immer wieder darauf zurück, wenn die Figur neue Hindernisse überwinden muss. Das berichten US-Forscher um Adrien Ecoffet von den Uber AI Labs in San Francisco in der Fachzeitschrift »Nature« .

Grundsätzlich näherten sich die Forscher dem Problem durch das sogenannte Reinforcement Learning, dem Lernen durch Verstärkung. Dabei lernt ein System durch Versuch und Irrtum, welche Aktionen belohnt und welche etwa durch Punktabzug bestraft werden.

Aber: »Bestehende Algorithmen zum Lernen durch Verstärkung scheinen Schwierigkeiten zu haben, wenn komplexe Umgebungen wenig Feedback bieten«, schreiben die Wissenschaftler mit Blick auf den Spielaufbau.

Das System bekommt ein Gedächtnis

Deshalb erweiterten sie das System durch eine Art digitales Gedächtnis. Dabei werden einzelne Spielzustände gespeichert. Nach jeder Erkundungsrunde wählt die KI im Archiv den Zustand oder Weg aus, der mit der höchsten Wahrscheinlichkeit einen Erfolg verspricht. Auf diese Weise nutzt die KI das Erfahrungswissen, auch wenn es noch nicht durch den angestrebten Erfolg, beispielsweise ein Level zu schaffen, verstärkt worden ist.

Durch diese Ergänzung der Reinforcement-Learning-Algorithmen konnte Go-Explore bei »Pitfall« Punkte sammeln – was den meisten KI-Systemen bisher nicht gelang. Dabei war Go-Explore etwas besser als der Durchschnitt menschlicher Spieler. Beim Spiel »Montezuma's Revenge« gelang der von Ecoffet und Kollegen entwickelten KI sogar ein Weltrekord, nachdem sie von menschlichen Spielern gelernt hatte. In elf Spielen für den Atari 2600 schnitt Go-Explore besser ab als durchschnittliche menschliche Spieler und als KI-Systeme nach dem Stand der Technik.

Den Forschern zufolge kann ihr Ansatz auch in der Robotik hilfreich sein. Sie wendeten ihre Algorithmen bei einem Roboterarm an, der lernen sollte, einen Gegenstand nacheinander in vier Fächer zu legen, von denen zwei verschlossen waren. Im Gegensatz zu anderen KI-Systemen vergaß Go-Explore nie, wenn es die Fächer bereits geöffnet hatte. So gelang es der KI, den Gegenstand schnell und zuverlässig in den vier Fächern zu platzieren. Als weitere mögliche Anwendungen von Go-Explore nennen die Wissenschaftler Sprachverständnis und die Entwickelung neuer Wirkstoffe.

Jan Peters vom Max-Planck-Institut für Intelligente Systeme in Stuttgart bezeichnet die Studie als Durchbruch. »Menschliche Experten in so vielen Problemen zu schlagen, ist ein eindrucksvoller Erfolg.« Das Anwendungspotenzial in der Robotik hält er jedoch für begrenzt. Durchbrüche könnte der Ansatz in der Medizin, beim autonomen Fahren und bei anderen sicherheitskritischen Anwendungen hervorbringen.

Claus Horn von der Zürcher Hochschule für Angewandte Wissenschaften erklärte im Hinblick auf das Go-Explore-System: »Es wird uns ermöglichen, komplexere Probleme zu lösen, die eine längere Reihenfolge von Entscheidungen bis zur Lösung verlangen.«

joe/dpa