PokerBench: Training großer Sprachmodelle, um professionelle Pokerspieler zu werden
PokerBench: Training Large Language Models to become Professional Poker Players
January 14, 2025
Autoren: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI
Zusammenfassung
Wir stellen PokerBench vor - einen Benchmark zur Bewertung der Poker-Spielkompetenz großer Sprachmodelle (LLMs). Da LLMs in traditionellen NLP-Aufgaben herausragende Leistungen erbringen, stellt ihre Anwendung auf komplexe, strategische Spiele wie Poker eine neue Herausforderung dar. Poker, ein Spiel mit unvollständigen Informationen, erfordert eine Vielzahl von Fähigkeiten wie Mathematik, logisches Denken, Planung, Strategie und ein tiefes Verständnis der Spieltheorie und der menschlichen Psychologie. Dies macht Poker zur idealen nächsten Herausforderung für große Sprachmodelle. PokerBench besteht aus einer umfassenden Zusammenstellung von 11.000 wichtigsten Szenarien, aufgeteilt in Pre-Flop- und Post-Flop-Spiel, die in Zusammenarbeit mit geschulten Pokerspielern entwickelt wurden. Wir bewerten prominente Modelle wie GPT-4, ChatGPT 3.5 sowie verschiedene Llama- und Gemma-Serienmodelle und stellen fest, dass alle modernen LLMs unterdurchschnittlich in der optimalen Poker-Spielweise sind. Nach Feinabstimmung zeigen diese Modelle jedoch deutliche Verbesserungen. Wir validieren PokerBench, indem wir Modelle mit unterschiedlichen Punktzahlen gegeneinander antreten lassen und zeigen, dass höhere Punktzahlen bei PokerBench zu höheren Gewinnraten in tatsächlichen Pokerspielen führen. Durch das Gameplay zwischen unserem feinabgestimmten Modell und GPT-4 identifizieren wir auch die Grenzen des einfachen überwachten Feinabstimmens zur Erlangung einer optimalen Spielstrategie und weisen auf die Notwendigkeit fortgeschrittenerer Methoden hin, um Sprachmodelle effektiv für Spiele zu trainieren. PokerBench bietet somit einen einzigartigen Benchmark für eine schnelle und zuverlässige Bewertung der Poker-Spielkompetenz von LLMs sowie einen umfassenden Benchmark zur Untersuchung des Fortschritts von LLMs in komplexen Spiel-Szenarien. Der Datensatz und der Code werden unter folgendem Link verfügbar gemacht: https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing
abilities of large language models (LLMs). As LLMs excel in traditional NLP
tasks, their application to complex, strategic games like poker poses a new
challenge. Poker, an incomplete information game, demands a multitude of skills
such as mathematics, reasoning, planning, strategy, and a deep understanding of
game theory and human psychology. This makes Poker the ideal next frontier for
large language models. PokerBench consists of a comprehensive compilation of
11,000 most important scenarios, split between pre-flop and post-flop play,
developed in collaboration with trained poker players. We evaluate prominent
models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models,
finding that all state-of-the-art LLMs underperform in playing optimal poker.
However, after fine-tuning, these models show marked improvements. We validate
PokerBench by having models with different scores compete with each other,
demonstrating that higher scores on PokerBench lead to higher win rates in
actual poker games. Through gameplay between our fine-tuned model and GPT-4, we
also identify limitations of simple supervised fine-tuning for learning optimal
playing strategy, suggesting the need for more advanced methodologies for
effectively training language models to excel in games. PokerBench thus
presents a unique benchmark for a quick and reliable evaluation of the
poker-playing ability of LLMs as well as a comprehensive benchmark to study the
progress of LLMs in complex game-playing scenarios. The dataset and code will
be made available at: https://github.com/pokerllm/pokerbench.Summary
AI-Generated Summary