ChatPaper.aiChatPaper

MultiAgentBench: Оценка взаимодействия и конкуренции агентов на основе языковых моделей

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

March 3, 2025
Авторы: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
cs.AI

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности в качестве автономных агентов, однако существующие бенчмарки либо сосредоточены на задачах для одного агента, либо ограничены узкими областями, не учитывая динамику координации и конкуренции между несколькими агентами. В данной статье мы представляем MultiAgentBench — всеобъемлющий бенчмарк, разработанный для оценки многоагентных систем на основе LLM в разнообразных интерактивных сценариях. Наша структура измеряет не только выполнение задач, но и качество сотрудничества и конкуренции с использованием новых ключевых показателей эффективности, основанных на этапах. Кроме того, мы оцениваем различные протоколы координации (включая звездообразную, цепочку, дерево и графовую топологии) и инновационные стратегии, такие как групповое обсуждение и когнитивное планирование. Примечательно, что gpt-4o-mini достигает наивысшего среднего балла за выполнение задач, графовая структура показывает наилучшие результаты среди протоколов координации в исследовательском сценарии, а когнитивное планирование повышает уровень достижения этапов на 3%. Код и наборы данных доступны по адресу https://github.com/MultiagentBench/MARBLE.
English
Large Language Models (LLMs) have shown remarkable capabilities as autonomous agents, yet existing benchmarks either focus on single-agent tasks or are confined to narrow domains, failing to capture the dynamics of multi-agent coordination and competition. In this paper, we introduce MultiAgentBench, a comprehensive benchmark designed to evaluate LLM-based multi-agent systems across diverse, interactive scenarios. Our framework measures not only task completion but also the quality of collaboration and competition using novel, milestone-based key performance indicators. Moreover, we evaluate various coordination protocols (including star, chain, tree, and graph topologies) and innovative strategies such as group discussion and cognitive planning. Notably, gpt-4o-mini reaches the average highest task score, graph structure performs the best among coordination protocols in the research scenario, and cognitive planning improves milestone achievement rates by 3%. Code and datasets are public available at https://github.com/MultiagentBench/MARBLE.

Summary

AI-Generated Summary

PDF203March 5, 2025