SPIN-Bench: Wie gut planen LLMs strategisch und schlussfolgern sie sozial?
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
March 16, 2025
Autoren: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath
cs.AI
Zusammenfassung
Schlussfolgerndes und strategisches Verhalten in sozialen Interaktionen ist ein Kennzeichen von Intelligenz. Diese Form des Denkens ist deutlich anspruchsvoller als isolierte Planungs- oder Denkaufgaben in statischen Umgebungen (z. B. das Lösen von Mathematikproblemen). In diesem Artikel stellen wir Strategic Planning, Interaction, and Negotiation (SPIN-Bench) vor, eine neue multidomänenbasierte Evaluierung, die entwickelt wurde, um die Intelligenz von strategischer Planung und sozialem Denken zu messen. Während sich viele bestehende Benchmarks auf eng gefasste Planungs- oder Einzelagenten-Denkaufgaben konzentrieren, kombiniert SPIN-Bench klassische PDDL-Aufgaben, wettbewerbsorientierte Brettspiele, kooperative Kartenspiele und Multi-Agenten-Verhandlungsszenarien in einem einheitlichen Rahmen. Das Framework umfasst sowohl einen Benchmark als auch eine Arena, um die Vielfalt sozialer Settings zu simulieren und zu bewerten, in denen das Denk- und strategische Verhalten von KI-Agenten getestet wird. Wir formulieren den Benchmark SPIN-Bench, indem wir systematisch Aktionsräume, Zustandskomplexität und die Anzahl der interagierenden Agenten variieren, um eine Vielzahl sozialer Szenarien zu simulieren, in denen der Erfolg nicht nur von methodischem und schrittweisem Entscheiden, sondern auch von der konzeptionellen Schlussfolgerung anderer (gegnerischer oder kooperativer) Teilnehmer abhängt. Unsere Experimente zeigen, dass zeitgenössische LLMs grundlegende Faktenabfrage und kurzfristige Planung zwar recht gut bewältigen, jedoch erhebliche Leistungsengpässe bei Aufgaben aufweisen, die tiefgreifendes Multi-Hop-Denken über große Zustandsräume und sozial geschickte Koordination unter Unsicherheit erfordern. Wir sehen SPIN-Bench als Katalysator für zukünftige Forschung zu robuster Multi-Agenten-Planung, sozialem Denken und Mensch-KI-Teamarbeit.
English
Reasoning and strategic behavior in social interactions is a hallmark
of intelligence. This form of reasoning is significantly more sophisticated
than isolated planning or reasoning tasks in static settings (e.g., math
problem solving). In this paper, we present Strategic Planning,
Interaction, and Negotiation (SPIN-Bench), a new multi-domain
evaluation designed to measure the intelligence of strategic planning
and social reasoning. While many existing benchmarks focus on narrow
planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks,
competitive board games, cooperative card games, and multi-agent negotiation
scenarios in one unified framework. The framework includes both a benchmark as
well as an arena to simulate and evaluate the variety of social settings to
test reasoning and strategic behavior of AI agents. We formulate the benchmark
SPIN-Bench by systematically varying action spaces, state complexity, and the
number of interacting agents to simulate a variety of social settings where
success depends on not only methodical and step-wise decision making, but also
conceptual inference of other (adversarial or cooperative) participants.
Our experiments reveal that while contemporary LLMs handle basic fact
retrieval and short-range planning reasonably well, they encounter
significant performance bottlenecks in tasks requiring deep multi-hop
reasoning over large state spaces and socially adept coordination under
uncertainty. We envision SPIN-Bench as a catalyst for future research on robust
multi-agent planning, social reasoning, and human--AI teaming.Summary
AI-Generated Summary