PokerBench: Training großer Sprachmodelle, um professionelle Pokerspieler zu werden

Zusammenfassung

Wir stellen PokerBench vor - einen Benchmark zur Bewertung der Poker-Spielkompetenz großer Sprachmodelle (LLMs). Da LLMs in traditionellen NLP-Aufgaben herausragende Leistungen erbringen, stellt ihre Anwendung auf komplexe, strategische Spiele wie Poker eine neue Herausforderung dar. Poker, ein Spiel mit unvollständigen Informationen, erfordert eine Vielzahl von Fähigkeiten wie Mathematik, logisches Denken, Planung, Strategie und ein tiefes Verständnis der Spieltheorie und der menschlichen Psychologie. Dies macht Poker zur idealen nächsten Herausforderung für große Sprachmodelle. PokerBench besteht aus einer umfassenden Zusammenstellung von 11.000 wichtigsten Szenarien, aufgeteilt in Pre-Flop- und Post-Flop-Spiel, die in Zusammenarbeit mit geschulten Pokerspielern entwickelt wurden. Wir bewerten prominente Modelle wie GPT-4, ChatGPT 3.5 sowie verschiedene Llama- und Gemma-Serienmodelle und stellen fest, dass alle modernen LLMs unterdurchschnittlich in der optimalen Poker-Spielweise sind. Nach Feinabstimmung zeigen diese Modelle jedoch deutliche Verbesserungen. Wir validieren PokerBench, indem wir Modelle mit unterschiedlichen Punktzahlen gegeneinander antreten lassen und zeigen, dass höhere Punktzahlen bei PokerBench zu höheren Gewinnraten in tatsächlichen Pokerspielen führen. Durch das Gameplay zwischen unserem feinabgestimmten Modell und GPT-4 identifizieren wir auch die Grenzen des einfachen überwachten Feinabstimmens zur Erlangung einer optimalen Spielstrategie und weisen auf die Notwendigkeit fortgeschrittenerer Methoden hin, um Sprachmodelle effektiv für Spiele zu trainieren. PokerBench bietet somit einen einzigartigen Benchmark für eine schnelle und zuverlässige Bewertung der Poker-Spielkompetenz von LLMs sowie einen umfassenden Benchmark zur Untersuchung des Fortschritts von LLMs in komplexen Spiel-Szenarien. Der Datensatz und der Code werden unter folgendem Link verfügbar gemacht: https://github.com/pokerllm/pokerbench.

English

We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

PokerBench: Training großer Sprachmodelle, um professionelle Pokerspieler zu werden

PokerBench: Training Large Language Models to become Professional Poker Players

Zusammenfassung

Support