Poker-Software Libratus "Hätte die Maschine ein Persönlichkeitsprofil, dann Gangster"

Eine künstliche Intelligenz hat erfolgreicher gepokert als menschliche Profis. Doch für die unterlegenen Top-Spieler gibt es immerhin einen Trost: Sie selbst haben ihrem Gegner den letzten Schliff gegeben.

Dong Kim, Jimmy Chou, Daniel McAulay und Jason Les gehören im Poker zur Weltspitze. Und zumindest in einer Hinsicht konnten die vier entspannt in das Duell "Brains vs. Artificial Intelligence" gehen, das von Mitte Januar knapp drei Wochen dauerte: Die Software namens Libratus , die für die Seite der künstlichen Intelligenz (KI/AI) antritt, hat keine Augen und Ohren und benutzt weder Kamera noch Mikrofon. Doch Schweißperlen auf der Stirn oder verräterische Bewegungen der Mundwinkel spielen ohnehin nur dann eine Rolle, wenn Menschen am Pokertisch gegeneinander antreten.

Die vier Top-Spieler saßen zwar gemeinsam im Rivers Casino in Pittsburgh , jedoch vor dem Computerbildschirm - eine Situation wie beim Online-Poker. Gespielt wurde "Heads-up, No-Limit Texas Hold'em" , jeder kämpfte also für sich allein gegen den Rechner. Und einmal, zu Beginn des Marathon-Wettkampfs, sah es so aus, als bekämen die Profis Libratus in den Griff.

"Da gibt es so einen Moment, wo sie praktisch durch ihre Kreativität den Computer auf dem falschen Fuß erwischen", erinnert sich Stephan Kalhamer , Diplom-Mathematiker und Präsident des "Deutschen Poker Sportbunds" an diese spannende Phase. Vom vierten bis zum sechsten Tag schien es so, als hätten die Menschen einen Weg gefunden, die KI-Strategie zu durchschauen und auszuhebeln.

Libratus schlägt zurück

Aber dann schlägt Libratus "brutal" zurück, analysiert Kalhamer: "Danach bricht dann auch das menschliche System komplett ein, also ab Tag sieben geht's dann 13 Tage lang wirklich enorm runter; und die Niederlage ist schon krass." Kalhamers Schlussfolgerung: Die KI, die am Ende jeden der Profis geschlagen hatte, lernte offenbar während des Spiels laufend dazu.

Genauso ist es, bestätigt der Programmierer  von Libratus, Tuomas Sandholm  von der Carnegie Mellon University. Solange das Match lief - 20 Tage und 120.000 ausgespielte Poker-Blätter lang -, hatten er und seine Mitarbeiter keinerlei Details verraten. Jetzt, auf der AAAI-Konferenz in San Francisco , deckt das Team die Karten auf.

"Wir versuchen dabei nicht, Löcher in der Strategie des Gegners zu finden und die dann besser auszunutzen", sagt Sandholm. "Stattdessen schauen wir uns an: Welche Löcher hat der Gegner in unserer Strategie gefunden und mit dem meisten Erfolg ausgenutzt?" Genau diese Löcher, die gefährlichsten eigenen Schwächen also bessert Libratus anschließend vollautomatisch aus. Die kurze Erfolgsphase der Pokerprofis war gleichzeitig der letzte entscheidende Nachhilfeunterricht für die KI.

Weder perfekt noch unschlagbar

Genau wie andere Pokerprogramme geht Libratus mit einer vorausberechneten Strategie in jedes Spiel. Die beruht notgedrungen auf einem vereinfachten Modell: Bei "Heads-up, No-Limit Texas Hold'em" gibt es nämlich rund 10 hoch 160 mögliche Spielkonstellationen. "Das ist mehr als die Zahl der Atome im Universum", rechnet Tuomas Sandholm vor - vollständig "lösen" lässt sich das Spiel im Gegensatz zu einfacheren Pokervarianten  wie "Texas Limit Hold'em" also nicht.

Libratus ist daher weder perfekt noch unschlagbar, gibt Sandholm zu. Aber das Programm spielt einerseits grundsolide und streut andererseits immer wieder Varianten und Zufallsentscheidungen ein, wenn es dafür einen ausreichenden Risikopuffer hat.

Genauso verhält sich auch ein starker menschlicher Spieler, erklärt Mathematiker Kalhamer: "Man geht also immer wieder gezielt aus der eigenen Deckung des spieltheoretischen Optimums  heraus, um eben Fehler auszunutzen."

Keine neuronalen Netze

Das Risikomanagement ist übrigens auch der Grund dafür, dass Libratus im Gegensatz etwa zu Googles "AlphaGo"  nicht mit neuronalen Netzen arbeitet. Er sei bei den sogenannten Deep-Learning-Verfahren ganz unvoreingenommen, beteuert Tuomas Sandholm. "Es gibt dabei nur keinerlei Garantien, weder vor einer Problemlösung noch nachher, wie gut diese Lösung ist und ob nicht Zufall eine Rolle spielt." Bei seinen Algorithmen dagegen könne er mathematisch garantieren, "dass sie sich dem spieltheoretischen Optimum annähern".

Keine Zockerei also, das ist die Devise bei Libratus. Langweilig oder feige spielt das Programm aber beileibe nicht, betont der Programmierer: "Sein Spiel ist superaggressiv", sagt er. "Es macht diese großen Einsätze höher als der Pot, es macht All-in-Einsätze. Seine menschlichen Gegner haben Libratus 'Gangster' genannt. Also hätte die Maschine ein Persönlichkeitsprofil, dann Gangster."