Heads-Up No-Limit Software schlägt Poker-Profis

Beim Pokern waren Computer bislang keine allzu starken Gegner. Dank künstlicher Intelligenz ändert sich das nun. Beim Duell zweier Spieler ohne Einsatzlimit zeigt eine neue Software nun Profis ihre Grenzen.
Von Christoph Drösser
Pokerchips auf Computertastatur

Pokerchips auf Computertastatur

Foto: Carla Schaffer/ AAAS

Poker gilt vielen immer noch als ein reines Glücksspiel, das in schummrigen Hinterzimmern betrieben wird oder auf obskuren Webseiten, deren Server in Steuerparadiesen stehen. Ein Spiel, bei dem der gewinnt, der am unverschämtesten bluffen kann.

Tatsächlich aber lässt sich beim Pokern Intelligenz in bares Geld umsetzen, ganz ohne Pokerface. Zwei Indizien dafür: Viele erstklassige Schachspieler verdienen sich beim Online-Poker etwas nebenbei. Und Softwareentwickler versuchen, Programme zu schreiben, die alle menschlichen Pokerspieler schlagen.

Ein Team von Wissenschaftlern aus Kanada und Tschechien hat mit ihrem neuen, auf künstlicher Intelligenz beruhenden Programm namens DeepStack nun in einer besonders anspruchsvollen Poker-Variante 33 Poker-Profis deklassiert. Nach Dame, Backgammon, Schach und Go scheint nun auch Poker ein Spiel zu sein, bei dem sich der Mensch der Maschine gegenüber geschlagen geben muss.

Spiel mit unvollständiger Information

Wird Michael Bowling, Informatiker an der kanadischen University of Alberta, nun reich, indem er sein Computerprogramm im Internet gegen die Besten der Welt spielen lässt? "Wir haben unser Programm nie online für Geld spielen lassen", beteuert Bowling. "Mir gefällt die Idee nicht, ich will mich auf die Wissenschaft konzentrieren."

Das wissenschaftlich Besondere an Poker: Es ist, anders als Schach oder Go, ein Spiel mit unvollständiger Information. Bei Brettspielen kommt es zu jedem Zeitpunkt nur auf die für alle sichtbare Stellung der Figuren an.

Beim Pokern dagegen gibt es eine verborgene Komponente: die Karten, die der Gegner in der Hand hält. Weil man die nicht kennt, muss man aus dem Verhalten des Gegners in der Vergangenheit auf seine Strategie schließen und die in Beurteilung der Spielsituation einbeziehen. Das macht das Spiel so schwer berechenbar.

Zwar gibt es seit Jahren Software, die klassische Methoden der Wahrscheinlichkeitsrechnung nutzt. Aber Profis lassen sich damit kaum schlagen.

Die Autoren der aktuellen Studie haben schon vor zwei Jahren Aufsehen erregt, als sie die Variante "Heads-Up Limit Texas Hold'em" für erledigt erklärten. Dabei spielen zwei Spieler gegeneinander, der Einsatz in jeder Runde ist allerdings limitiert.

10160 Kombinationen

Ihr aktuelles Programm spielt die anspruchsvollere Variante "Heads-up No-Limit", bei der zwei Spieler gegeneinander antreten und jeden Betrag aus dem Gesamtvorrat an Chips setzen können. Dies ist die klassische Situation im Finale einer Pokerrunde, die übrigen Mitspieler sind ausgestiegen.

Die Zahl der möglichen Spielkombinationen steigt dabei von 1017 (bei limitiertem Einsatz) auf 10160 - eine unvorstellbar große Menge, weit mehr als die Zahl der Atome im Universum. Sie liegt in der Größenordnung der möglichen Züge beim Go.

Beim Texas Hold'em bekommt jeder Spieler zunächst zwei Karten, die der Gegner nicht sehen kann. Darauf wird schon gesetzt, und Zaghafte steigen vielleicht schon in diesem Stadium aus. Spannend wird es aber erst in der nächsten Runde, dem Flop: Drei Karten werden offen in die Mitte gelegt. Die könnten zusammen mit den zwei "privaten" Karten schon ein schönes Pokerblatt bilden (das immer aus fünf Karten besteht).

Sofern jetzt niemand aussteigt, gibt es aber noch zwei weitere Runden, den "Turn" und den "River", bei denen jeweils noch eine weitere Karte aufgedeckt wird. Jeder Spieler hat dann sieben Karten zur Verfügung, aus denen er sein finales Blatt zusammenstellen kann.

Das "Bauchgefühl" des Algorithmus

Die Herausforderung für die Entwickler bestand darin, dass das Programm stets in einer für menschliche Gegner akzeptablen Zeit von etwa drei Sekunden zum Zug kommt, dabei aber trotzdem noch - mathematisch beweisbar - dem theoretischen Optimum möglichst nahe bleiben sollte. Diese sogenannte Nash-Gleichgewichts -Strategie ist eine für jedes Spiel existierende Vorgehensweise, bei der man zumindest auf die Dauer kein Geld verliert.

Die Komplexität musste also kräftig reduziert werden. Das tut DeepStack auf mehrfache Weise: Zunächst einmal schaut es nicht zurück. Es vergisst zu jedem Zeitpunkt den bisherigen Spielverlauf und betrachtet nur die aktuelle Situation: die privaten und öffentlichen Karten und den bisherigen Einsatz, der auf dem Tisch liegt. Das Spielverhalten des Gegners ist in einem einzigen Zahlenvektor zusammengefasst.

Auch der Blick in die Zukunft wird begrenzt, nur für die nächsten ein oder zwei Schritte werden alle möglichen Karten- und Einsatzvarianten berechnet. Dann wird jede dieser möglichen Situationen mit einem Geldwert belegt, dem abzusehenden Gewinn oder Verlust. In diesem Wert steckt das "Bauchgefühl" des Algorithmus, wie die Autoren es nennen.

"Bahnbrechende Leistung"

Hier kommt die künstliche Intelligenz ins Spiel: Ein Deep-Learning-Algorithmus, also ein lernendes neuronales Netz, hat Millionen von Pokerpartien simuliert und daraus gelernt, die Chancen abzuschätzen. Auf diese Weise konnte die Komplexität des Spiels gewaltig reduziert werden, von den erwähnten 10160 auf nur noch etwa zehn Millionen Situationen, die es zu bedenken gilt.

Dies sei eine "bahnbrechende Leistung", sagt Christian Bauckhage vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS in Sankt Augustin. "Die verwendeten neuronalen Netze haben so etwas wie 'Intuition' entwickelt." DeepStack könne somit überzeugend bluffen und sei in seiner Spielweise nicht mehr von Menschen zu unterscheiden.

Nachdem das Programm alle menschlichen Gegner eindrucksvoll im Zweikampf besiegt hat, stellt sich die Frage, wie sich das Programm in der typischeren Situation schlagen würde, in der mehrere Spieler am Tisch sitzen. Bowling ist optimistisch: "Mit ein paar Änderungen sollte das Programm in der Lage sein, auch diese Variante schnell genug zu spielen."

Die Tatsache, dass ein Computer jetzt jeden menschlichen Spieler schlagen kann, dürfte für Unruhe in der Online-Pokerbranche sorgen. Wenn die Spieler befürchten müssen, dass eine praktisch unschlagbare Maschine mit ihnen am virtuellen Spieltisch sitzt, könnte die Internet-Zockerei ihren Reiz verlieren.

Überraschende Anwendungsideen

Michael Bowling interessiert diese Frage nur am Rande. Eher denkt er über Anwendungen nach, die mit Spielen auf den ersten Blick gar nichts zu tun haben: Sicherheitssysteme, die kritische Infrastruktur gegen Anschläge schützen sollen. Oder Diagnosesysteme, die Diabetikern geeignete Therapien empfehlen. Wer ist in diesem "Spiel" der Gegner?

"Die Therapie muss robust sein gegen alle möglichen Veränderungen", sagt Bowling. "Der Patient ändert seine Ernährung, treibt mehr oder weniger Sport. Die reale Welt ist der Gegner oder auch der Patient, der sich nicht wie geplant verhält. Und das kann man genauso modellieren wie ein Pokerspiel."