Poker-Software Libratus "Hätte die Maschine ein Persönlichkeitsprofil, dann Gangster"

Eine künstliche Intelligenz hat erfolgreicher gepokert als menschliche Profis. Doch für die unterlegenen Top-Spieler gibt es immerhin einen Trost: Sie selbst haben ihrem Gegner den letzten Schliff gegeben.

Profi Jason Les (l.) spielt gegen Libratus, daneben Tuomas Sandholm, der Programmierer
picture alliance/ AP/ Pittsburgh Post-Gazette

Profi Jason Les (l.) spielt gegen Libratus, daneben Tuomas Sandholm, der Programmierer


Dong Kim, Jimmy Chou, Daniel McAulay und Jason Les gehören im Poker zur Weltspitze. Und zumindest in einer Hinsicht konnten die vier entspannt in das Duell "Brains vs. Artificial Intelligence" gehen, das von Mitte Januar knapp drei Wochen dauerte: Die Software namens Libratus, die für die Seite der künstlichen Intelligenz (KI/AI) antritt, hat keine Augen und Ohren und benutzt weder Kamera noch Mikrofon. Doch Schweißperlen auf der Stirn oder verräterische Bewegungen der Mundwinkel spielen ohnehin nur dann eine Rolle, wenn Menschen am Pokertisch gegeneinander antreten.

Die vier Top-Spieler saßen zwar gemeinsam im Rivers Casino in Pittsburgh, jedoch vor dem Computerbildschirm - eine Situation wie beim Online-Poker. Gespielt wurde "Heads-up, No-Limit Texas Hold'em", jeder kämpfte also für sich allein gegen den Rechner. Und einmal, zu Beginn des Marathon-Wettkampfs, sah es so aus, als bekämen die Profis Libratus in den Griff.

"Da gibt es so einen Moment, wo sie praktisch durch ihre Kreativität den Computer auf dem falschen Fuß erwischen", erinnert sich Stephan Kalhamer, Diplom-Mathematiker und Präsident des "Deutschen Poker Sportbunds" an diese spannende Phase. Vom vierten bis zum sechsten Tag schien es so, als hätten die Menschen einen Weg gefunden, die KI-Strategie zu durchschauen und auszuhebeln.

Libratus schlägt zurück

Aber dann schlägt Libratus "brutal" zurück, analysiert Kalhamer: "Danach bricht dann auch das menschliche System komplett ein, also ab Tag sieben geht's dann 13 Tage lang wirklich enorm runter; und die Niederlage ist schon krass." Kalhamers Schlussfolgerung: Die KI, die am Ende jeden der Profis geschlagen hatte, lernte offenbar während des Spiels laufend dazu.

Genauso ist es, bestätigt der Programmierer von Libratus, Tuomas Sandholm von der Carnegie Mellon University. Solange das Match lief - 20 Tage und 120.000 ausgespielte Poker-Blätter lang -, hatten er und seine Mitarbeiter keinerlei Details verraten. Jetzt, auf der AAAI-Konferenz in San Francisco, deckt das Team die Karten auf.

"Wir versuchen dabei nicht, Löcher in der Strategie des Gegners zu finden und die dann besser auszunutzen", sagt Sandholm. "Stattdessen schauen wir uns an: Welche Löcher hat der Gegner in unserer Strategie gefunden und mit dem meisten Erfolg ausgenutzt?" Genau diese Löcher, die gefährlichsten eigenen Schwächen also bessert Libratus anschließend vollautomatisch aus. Die kurze Erfolgsphase der Pokerprofis war gleichzeitig der letzte entscheidende Nachhilfeunterricht für die KI.

Weder perfekt noch unschlagbar

Genau wie andere Pokerprogramme geht Libratus mit einer vorausberechneten Strategie in jedes Spiel. Die beruht notgedrungen auf einem vereinfachten Modell: Bei "Heads-up, No-Limit Texas Hold'em" gibt es nämlich rund 10 hoch 160 mögliche Spielkonstellationen. "Das ist mehr als die Zahl der Atome im Universum", rechnet Tuomas Sandholm vor - vollständig "lösen" lässt sich das Spiel im Gegensatz zu einfacheren Pokervarianten wie "Texas Limit Hold'em" also nicht.

Libratus ist daher weder perfekt noch unschlagbar, gibt Sandholm zu. Aber das Programm spielt einerseits grundsolide und streut andererseits immer wieder Varianten und Zufallsentscheidungen ein, wenn es dafür einen ausreichenden Risikopuffer hat.

Genauso verhält sich auch ein starker menschlicher Spieler, erklärt Mathematiker Kalhamer: "Man geht also immer wieder gezielt aus der eigenen Deckung des spieltheoretischen Optimums heraus, um eben Fehler auszunutzen."

Keine neuronalen Netze

Das Risikomanagement ist übrigens auch der Grund dafür, dass Libratus im Gegensatz etwa zu Googles "AlphaGo" nicht mit neuronalen Netzen arbeitet. Er sei bei den sogenannten Deep-Learning-Verfahren ganz unvoreingenommen, beteuert Tuomas Sandholm. "Es gibt dabei nur keinerlei Garantien, weder vor einer Problemlösung noch nachher, wie gut diese Lösung ist und ob nicht Zufall eine Rolle spielt." Bei seinen Algorithmen dagegen könne er mathematisch garantieren, "dass sie sich dem spieltheoretischen Optimum annähern".

Keine Zockerei also, das ist die Devise bei Libratus. Langweilig oder feige spielt das Programm aber beileibe nicht, betont der Programmierer: "Sein Spiel ist superaggressiv", sagt er. "Es macht diese großen Einsätze höher als der Pot, es macht All-in-Einsätze. Seine menschlichen Gegner haben Libratus 'Gangster' genannt. Also hätte die Maschine ein Persönlichkeitsprofil, dann Gangster."



Forum - Diskutieren Sie über diesen Artikel
insgesamt 14 Beiträge
Alle Kommentare öffnen
Seite 1
napoleonwilson 08.02.2017
1. 10 hoch 160
Wie geht das mit 52 Im Spiel befindlichen Karten ? 52! wirft 8.01 hoch 67 aus. Aber von Spieletheorie habe ich nicht viel Ahnung.
also-dann 08.02.2017
2. Der Text hat es in sich.
Zur Beachtung. Genau das ist leicht zu übersehen, aber gesellschaftlich voraussichtlich enorm brisant. Weil angelernte neuronale Netze voraussichtlich in den nächsten Jahren unter dem Stichwort "künstliche Intelligenz" die meisten Menschen ersetzen werden. Neuronale Netze lernen Muster aus dem, was ihnen vorgesetzt wird, und wenn das, was Ihnen vorgesetzt wird, nicht vollständig determiniert ist (das ist der Normalfall in der Realität), dann sind das Wiedererkennen und die darauf aufbauenden Entscheidungen eben tatsächlich teilweise zufällig.
TS_Alien 08.02.2017
3.
Es gibt viele Bereiche, da kann man auch ohne Lerneffekte sehr gute und erfolgreiche Software schreiben. Der Lerneffekt wird oftmals überschätzt. Solange die sehr guten Gegner beim Poker ausreichend variabel spielen, wird sich auch dort kein größerer Lerneffekt einstellen. Der Hype um neuronale Netze oder die KI wird irgendwann wieder nachlassen. Die wirklich schwierigen Probleme, für die man als Mensch Intelligenz und Kreativität benötigt, sind in der KI noch gar nicht angegangen worden. Stattdessen werden Nebenschauplätze bearbeitet. Schade. Interessehalber würde ich gerne wissen, wie sich manche Software mit Lerneffekt verhält, wenn sie sehr oft gegen sich selbst Go oder Poker spielt. Es kann gut sein, dass dabei die völlig falschen Dinge gelernt werden, weil der menschliche Profi als Korrektiv fehlt.
brucewillisdoesit 09.02.2017
4.
> Der Lerneffekt wird oftmals überschätzt. Solange die sehr guten > Gegner beim Poker ausreichend variabel spielen, wird sich auch > dort kein größerer Lerneffekt einstellen. Ganze im Gegenteil. Das Training dauert nur länger, dafür ist der Lerneffekt umso höher je variabler die Gegner spielen, und umso weniger kommt es zum overfitting. > Der Hype um neuronale Netze oder die KI wird irgendwann wieder >nachlassen. Die wirklich schwierigen Probleme, für die man als >Mensch Intelligenz und Kreativität benötigt, sind in der KI noch gar >nicht angegangen worden. Was auch nicht so ganz stimmt. Erstens sind es nicht nur neuronale Netze, sonern auch andere Algorithmen, zweitens ist das was sich dort in den letzten 10 Jahren getan hat schon revolutionär, Sei es nun Sprach- oder Gesichtserkennung, automatisches Fahren, oder Go. Insbesondere die Gesichtserkennung ist dramatisch. Der Mensch ist eine evolutionär eine auf Pattern recognition gedrillte Maschine und unterliegt troztdem inzwischen Computern in diesem Bereich. Starke AI gibt es zwar in der Tat nicht, aber Kreativität durchaus, oder zumindest durch Computer eigenständig erzeugte Kunstwerke, bei denen der Betrachter nicht unterscheiden kann, ob sie nun von einem Menschen oder Computer erzeugt wurden. Das London Symphony Orchestra hat z.B. eine CD veröffentlicht die von dem Programm Lamus kompiniert wurde. Ein anderes hat bereits ebenfalls 2 CDs veröffentlicht. In der AI gibt es inzwischen zahllose Beispiele von kreativen Programmen. >Interessehalber würde ich gerne wissen, wie sich manche Software > mit Lerneffekt verhält, wenn sie sehr oft gegen sich selbst Go oder > Poker spielt. Es kann gut sein, dass dabei die völlig falschen Dinge > gelernt werden, weil der menschliche Profi als Korrektiv fehlt. Alpha Go wurde trainiert indem es gegen sich selbst spielte. Das Ergebnis durfte dann Lee Sedol ausbaden. Die Idee Lernen ginge nur mit supervised learning wurde bereits vor langem verworfen. Deswegen ist unsupervised learning, d.h. das selbstständige Lernen von Programmen ohne menschliches zutun, heute ein zentraler Aspekt der AI-Forschung. Das einzige was man dazu benötigt ist eine ausreichend große Datenbasis.
Lagrange 09.02.2017
5.
Da können sich Onlinepoker Buden aber warm anziehen. Dann wird es bald bestimmt auch gute Versionen zum Nebenherverwenden geben, die der Branche ordentlich schaden
Alle Kommentare öffnen
Seite 1

© SPIEGEL ONLINE 2017
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


TOP
Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.