Heads-Up No-Limit Software schlägt Poker-Profis

Beim Pokern waren Computer bislang keine allzu starken Gegner. Dank künstlicher Intelligenz ändert sich das nun. Beim Duell zweier Spieler ohne Einsatzlimit zeigt eine neue Software nun Profis ihre Grenzen.

Pokerchips auf Computertastatur
Carla Schaffer/ AAAS

Pokerchips auf Computertastatur

Von Christoph Drösser


Poker gilt vielen immer noch als ein reines Glücksspiel, das in schummrigen Hinterzimmern betrieben wird oder auf obskuren Webseiten, deren Server in Steuerparadiesen stehen. Ein Spiel, bei dem der gewinnt, der am unverschämtesten bluffen kann.

Tatsächlich aber lässt sich beim Pokern Intelligenz in bares Geld umsetzen, ganz ohne Pokerface. Zwei Indizien dafür: Viele erstklassige Schachspieler verdienen sich beim Online-Poker etwas nebenbei. Und Softwareentwickler versuchen, Programme zu schreiben, die alle menschlichen Pokerspieler schlagen.

Ein Team von Wissenschaftlern aus Kanada und Tschechien hat mit ihrem neuen, auf künstlicher Intelligenz beruhenden Programm namens DeepStack nun in einer besonders anspruchsvollen Poker-Variante 33 Poker-Profis deklassiert. Nach Dame, Backgammon, Schach und Go scheint nun auch Poker ein Spiel zu sein, bei dem sich der Mensch der Maschine gegenüber geschlagen geben muss.

Spiel mit unvollständiger Information

Wird Michael Bowling, Informatiker an der kanadischen University of Alberta, nun reich, indem er sein Computerprogramm im Internet gegen die Besten der Welt spielen lässt? "Wir haben unser Programm nie online für Geld spielen lassen", beteuert Bowling. "Mir gefällt die Idee nicht, ich will mich auf die Wissenschaft konzentrieren."

Das wissenschaftlich Besondere an Poker: Es ist, anders als Schach oder Go, ein Spiel mit unvollständiger Information. Bei Brettspielen kommt es zu jedem Zeitpunkt nur auf die für alle sichtbare Stellung der Figuren an.

Beim Pokern dagegen gibt es eine verborgene Komponente: die Karten, die der Gegner in der Hand hält. Weil man die nicht kennt, muss man aus dem Verhalten des Gegners in der Vergangenheit auf seine Strategie schließen und die in Beurteilung der Spielsituation einbeziehen. Das macht das Spiel so schwer berechenbar.

Zwar gibt es seit Jahren Software, die klassische Methoden der Wahrscheinlichkeitsrechnung nutzt. Aber Profis lassen sich damit kaum schlagen.

Die Autoren der aktuellen Studie haben schon vor zwei Jahren Aufsehen erregt, als sie die Variante "Heads-Up Limit Texas Hold'em" für erledigt erklärten. Dabei spielen zwei Spieler gegeneinander, der Einsatz in jeder Runde ist allerdings limitiert.

10160 Kombinationen

Ihr aktuelles Programm spielt die anspruchsvollere Variante "Heads-up No-Limit", bei der zwei Spieler gegeneinander antreten und jeden Betrag aus dem Gesamtvorrat an Chips setzen können. Dies ist die klassische Situation im Finale einer Pokerrunde, die übrigen Mitspieler sind ausgestiegen.

Die Zahl der möglichen Spielkombinationen steigt dabei von 1017 (bei limitiertem Einsatz) auf 10160 - eine unvorstellbar große Menge, weit mehr als die Zahl der Atome im Universum. Sie liegt in der Größenordnung der möglichen Züge beim Go.

Beim Texas Hold'em bekommt jeder Spieler zunächst zwei Karten, die der Gegner nicht sehen kann. Darauf wird schon gesetzt, und Zaghafte steigen vielleicht schon in diesem Stadium aus. Spannend wird es aber erst in der nächsten Runde, dem Flop: Drei Karten werden offen in die Mitte gelegt. Die könnten zusammen mit den zwei "privaten" Karten schon ein schönes Pokerblatt bilden (das immer aus fünf Karten besteht).

Sofern jetzt niemand aussteigt, gibt es aber noch zwei weitere Runden, den "Turn" und den "River", bei denen jeweils noch eine weitere Karte aufgedeckt wird. Jeder Spieler hat dann sieben Karten zur Verfügung, aus denen er sein finales Blatt zusammenstellen kann.

Das "Bauchgefühl" des Algorithmus

Die Herausforderung für die Entwickler bestand darin, dass das Programm stets in einer für menschliche Gegner akzeptablen Zeit von etwa drei Sekunden zum Zug kommt, dabei aber trotzdem noch - mathematisch beweisbar - dem theoretischen Optimum möglichst nahe bleiben sollte. Diese sogenannte Nash-Gleichgewichts-Strategie ist eine für jedes Spiel existierende Vorgehensweise, bei der man zumindest auf die Dauer kein Geld verliert.

Bluffen wie ein Profi

Die Komplexität musste also kräftig reduziert werden. Das tut DeepStack auf mehrfache Weise: Zunächst einmal schaut es nicht zurück. Es vergisst zu jedem Zeitpunkt den bisherigen Spielverlauf und betrachtet nur die aktuelle Situation: die privaten und öffentlichen Karten und den bisherigen Einsatz, der auf dem Tisch liegt. Das Spielverhalten des Gegners ist in einem einzigen Zahlenvektor zusammengefasst.

Auch der Blick in die Zukunft wird begrenzt, nur für die nächsten ein oder zwei Schritte werden alle möglichen Karten- und Einsatzvarianten berechnet. Dann wird jede dieser möglichen Situationen mit einem Geldwert belegt, dem abzusehenden Gewinn oder Verlust. In diesem Wert steckt das "Bauchgefühl" des Algorithmus, wie die Autoren es nennen.

"Bahnbrechende Leistung"

Hier kommt die künstliche Intelligenz ins Spiel: Ein Deep-Learning-Algorithmus, also ein lernendes neuronales Netz, hat Millionen von Pokerpartien simuliert und daraus gelernt, die Chancen abzuschätzen. Auf diese Weise konnte die Komplexität des Spiels gewaltig reduziert werden, von den erwähnten 10160 auf nur noch etwa zehn Millionen Situationen, die es zu bedenken gilt.

Dies sei eine "bahnbrechende Leistung", sagt Christian Bauckhage vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS in Sankt Augustin. "Die verwendeten neuronalen Netze haben so etwas wie 'Intuition' entwickelt." DeepStack könne somit überzeugend bluffen und sei in seiner Spielweise nicht mehr von Menschen zu unterscheiden.

Nachdem das Programm alle menschlichen Gegner eindrucksvoll im Zweikampf besiegt hat, stellt sich die Frage, wie sich das Programm in der typischeren Situation schlagen würde, in der mehrere Spieler am Tisch sitzen. Bowling ist optimistisch: "Mit ein paar Änderungen sollte das Programm in der Lage sein, auch diese Variante schnell genug zu spielen."

Die Tatsache, dass ein Computer jetzt jeden menschlichen Spieler schlagen kann, dürfte für Unruhe in der Online-Pokerbranche sorgen. Wenn die Spieler befürchten müssen, dass eine praktisch unschlagbare Maschine mit ihnen am virtuellen Spieltisch sitzt, könnte die Internet-Zockerei ihren Reiz verlieren.

Überraschende Anwendungsideen

Michael Bowling interessiert diese Frage nur am Rande. Eher denkt er über Anwendungen nach, die mit Spielen auf den ersten Blick gar nichts zu tun haben: Sicherheitssysteme, die kritische Infrastruktur gegen Anschläge schützen sollen. Oder Diagnosesysteme, die Diabetikern geeignete Therapien empfehlen. Wer ist in diesem "Spiel" der Gegner?

"Die Therapie muss robust sein gegen alle möglichen Veränderungen", sagt Bowling. "Der Patient ändert seine Ernährung, treibt mehr oder weniger Sport. Die reale Welt ist der Gegner oder auch der Patient, der sich nicht wie geplant verhält. Und das kann man genauso modellieren wie ein Pokerspiel."



Forum - Diskutieren Sie über diesen Artikel
insgesamt 8 Beiträge
Alle Kommentare öffnen
Seite 1
l/d 03.03.2017
1. Ich glaube nicht,
dass man diese Optimierung des Verhaltens unter den Begriff Intelligenz einordnen sollte, denn auch hier werden gesammelte Erfahrungen genutzt, um die Summe der möglichen Aktionen (Antworten) auf eine mögliche bewährte einzugrenzen. Das ist ein Verhalten, wie es den Instinkten entspricht, bei dem die Summe der Erfahrungen der Art mit ganz bestimmten Wahrnehmungen (Situationen) genutzt wird, um ein bewährtes Verhalten zu veranlassen. Solche Instinkte fühlt man als Mensch noch als Bauchgefühl, aber das hat eben nicht mit Intelligenz und auch nichts mit Intuition zu tun, wobei letztere am ehesten als Wissen zu bezeichnen ist, das weder den Instinkten, noch persönlichen Erfahrungen noch dem eigenen Nachdenken entstammt, sondern von uns wie "eingegeben" empfunden wird.
Mister Stone 03.03.2017
2.
Die Onlinespieler brauchen keine Sorge zu haben, dass sich eine neue Gefahr auftut. Es ist nämlich gar nicht nötig, solche "superintelligenten" Bots beim Onlinepoker einzusetzen. Solange es möglich ist, dass Bots die gegnerischen Karten "einsehen", würde es - wenn man es denn tun wolte - ausreichen, die ganz einfachen Bots einzusetzen, um Realspieler auszunehmen. Das gilt für alle Online-(Karten-)Spiele mit unvollständigen Informationen.
theroadtoutopia 03.03.2017
3. Fehlendes Glied für interessante Anwendung
Für erfolgreiche Machine-Learning-Anwendungen, die in vieldimensionalen Spielen mit unvollständiger Information eine Leistungsfähigkeit ähnlich der des Menschen erreichen können, gibt es ausgesprochen lukrative Anwendungsmöglichkeiten. Nicht zuletzt könnte die Weiterentwicklung derartiger Systeme sehr hilfreich bei der Einführung selbständig agierender Fahrzeuge sein, da dann ein Fahrzeug lernen kann, das Verhalten der anderen Verkehrsteilnehmer einzuschätzen. Genau das macht ein (vernünftiger) Autofahrer auch: Man fährt in 9 Autos - dem eigenen und denen, die um einen herum sind. Ich hatte zwar nur selten mit dem Automotive-Bereich zu tun, aber bei den vielen Millionen potentiellen Kunden in den asiatischen Riesenmetropolen lohnt sich fast jede Investition in solche Systeme.
kpdsu 03.03.2017
4.
Ist vielleicht nicht Intelligenz im klassischen Sinne, aber diese Art zu lernen ist natürlich Teil intelligenten Verhaltens.
AntiDe 03.03.2017
5.
...steigt dabei von 10^17 (bei limitiertem Einsatz) auf 10^160 - eine unvorstellbar große Menge, weit mehr als die Zahl der Atome im Universum." Nun, die Größe des Universums ist unbekannt, aber so klein ist es nach neuesten Erkenntnissen vermutlich nicht. Hier hätte man "im sichtbaren Universum" schreiben sollen, sonst ist es verwirrend. Denn unter "Universum" schlechthin verstehen die meisten Menschen etwas umfassenderes, so auch der Wikipedia-Artikel.
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2017
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.