PokerBench: Treinando Modelos de Linguagem Grandes para se Tornarem Jogadores Profissionais de Poker

PokerBench: Training Large Language Models to become Professional Poker Players

January 14, 2025
Autores: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI

Resumo

Apresentamos o PokerBench - um benchmark para avaliar as habilidades de jogo de poker de grandes modelos de linguagem (LLMs). Como os LLMs se destacam em tarefas tradicionais de PNL, sua aplicação a jogos complexos e estratégicos como o poker representa um novo desafio. O poker, um jogo de informação incompleta, exige uma variedade de habilidades como matemática, raciocínio, planejamento, estratégia e uma compreensão profunda da teoria dos jogos e da psicologia humana. Isso torna o poker a próxima fronteira ideal para grandes modelos de linguagem. O PokerBench consiste em uma compilação abrangente de 11.000 cenários mais importantes, divididos entre jogadas pré-flop e pós-flop, desenvolvidos em colaboração com jogadores de poker treinados. Avaliamos modelos proeminentes, incluindo GPT-4, ChatGPT 3.5 e vários modelos das séries Llama e Gemma, constatando que todos os LLMs de última geração têm desempenho inferior ao jogar poker de forma ótima. No entanto, após ajustes finos, esses modelos mostram melhorias significativas. Validamos o PokerBench fazendo com que modelos com diferentes pontuações compitam entre si, demonstrando que pontuações mais altas no PokerBench levam a taxas de vitória mais altas em jogos de poker reais. Através do jogo entre nosso modelo ajustado e o GPT-4, também identificamos limitações do simples ajuste fino supervisionado para aprender estratégias de jogo ótimas, sugerindo a necessidade de metodologias mais avançadas para treinar efetivamente modelos de linguagem para se destacarem em jogos. O PokerBench apresenta assim um benchmark único para uma avaliação rápida e confiável da capacidade de jogar poker dos LLMs, bem como um benchmark abrangente para estudar o progresso dos LLMs em cenários complexos de jogos. O conjunto de dados e o código estarão disponíveis em: https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

Summary

AI-Generated Summary

PDF132January 15, 2025