PokéChamp: Экспертный языковой агент, основанный на алгоритме минимакс

Аннотация

Мы представляем Pok\'eChamp — минимакс-агента, основанного на больших языковых моделях (LLM) для сражений в Pok\'emon. Построенный на общей структуре для двухсторонних соревновательных игр, Pok\'eChamp использует универсальные возможности LLM для улучшения минимаксного поиска в дереве. В частности, LLM заменяют три ключевых модуля: (1) выбор действий игрока, (2) моделирование противника и (3) оценку функции ценности, что позволяет агенту эффективно использовать историю игрового процесса и человеческие знания для сокращения пространства поиска и решения проблемы частичной наблюдаемости. Примечательно, что наша структура не требует дополнительного обучения LLM. Мы оцениваем Pok\'eChamp в популярном формате Gen 9 OU. При использовании GPT-4o он достигает уровня побед в 76% против лучшего существующего бота на основе LLM и 84% против самого сильного бота на основе правил, демонстрируя превосходную производительность. Даже с открытой моделью Llama 3.1 на 8 миллиардов параметров Pok\'eChamp стабильно превосходит предыдущего лучшего бота на основе LLM, Pok\'ellmon, работающего на GPT-4o, с уровнем побед в 64%. Pok\'eChamp достигает прогнозируемого рейтинга Elo 1300-1500 на онлайн-лестнице Pok\'emon Showdown, что помещает его в топ 30%-10% среди человеческих игроков. Кроме того, эта работа включает крупнейший набор данных реальных сражений в Pok\'emon, содержащий более 3 миллионов игр, включая более 500 тысяч матчей с высоким рейтингом Elo. На основе этого набора данных мы устанавливаем серию бенчмарков и головоломок для оценки конкретных навыков сражений. Мы также предоставляем ключевые обновления локального игрового движка. Мы надеемся, что эта работа стимулирует дальнейшие исследования, использующие сражения в Pok\'emon как бенчмарк для интеграции технологий LLM с алгоритмами теории игр, решающими общие проблемы многоагентных систем. Видео, код и набор данных доступны по адресу https://sites.google.com/view/pokechamp-llm.

English

We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

PokéChamp: Экспертный языковой агент, основанный на алгоритме минимакс

PokéChamp: an Expert-level Minimax Language Agent

Аннотация

Summary

Support