TextArena
TextArena
April 15, 2025
Autori: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan
cs.AI
Abstract
TextArena è una raccolta open-source di giochi competitivi basati su testo per l'addestramento e la valutazione del comportamento agentico nei Large Language Models (LLM). Copre oltre 57 ambienti unici (inclusi configurazioni single-player, two-player e multi-player) e consente una facile valutazione delle capacità dei modelli tramite un sistema di gioco online (contro esseri umani e altri modelli inviati) con punteggi TrueSkill in tempo reale. I benchmark tradizionali raramente valutano abilità sociali dinamiche come negoziazione, teoria della mente e inganno, creando un vuoto che TextArena colma. Progettato con la ricerca, la comunità e l'estensibilità in mente, TextArena enfatizza la facilità di aggiungere nuovi giochi, adattare il framework, testare i modelli, giocare contro i modelli e addestrare i modelli. Una documentazione dettagliata degli ambienti, dei giochi, della classifica e degli esempi è disponibile su https://github.com/LeonGuertler/TextArena e https://www.textarena.ai/.
English
TextArena is an open-source collection of competitive text-based games for
training and evaluation of agentic behavior in Large Language Models (LLMs). It
spans 57+ unique environments (including single-player, two-player, and
multi-player setups) and allows for easy evaluation of model capabilities via
an online-play system (against humans and other submitted models) with
real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social
skills such as negotiation, theory of mind, and deception, creating a gap that
TextArena addresses. Designed with research, community and extensibility in
mind, TextArena emphasizes ease of adding new games, adapting the framework,
testing models, playing against the models, and training models. Detailed
documentation of environments, games, leaderboard, and examples are available
on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.Summary
AI-Generated Summary