MultiAgentBench: Оценка взаимодействия и конкуренции агентов на основе языковых моделей

Аннотация

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности в качестве автономных агентов, однако существующие бенчмарки либо сосредоточены на задачах для одного агента, либо ограничены узкими областями, не учитывая динамику координации и конкуренции между несколькими агентами. В данной статье мы представляем MultiAgentBench — всеобъемлющий бенчмарк, разработанный для оценки многоагентных систем на основе LLM в разнообразных интерактивных сценариях. Наша структура измеряет не только выполнение задач, но и качество сотрудничества и конкуренции с использованием новых ключевых показателей эффективности, основанных на этапах. Кроме того, мы оцениваем различные протоколы координации (включая звездообразную, цепочку, дерево и графовую топологии) и инновационные стратегии, такие как групповое обсуждение и когнитивное планирование. Примечательно, что gpt-4o-mini достигает наивысшего среднего балла за выполнение задач, графовая структура показывает наилучшие результаты среди протоколов координации в исследовательском сценарии, а когнитивное планирование повышает уровень достижения этапов на 3%. Код и наборы данных доступны по адресу https://github.com/MultiagentBench/MARBLE.

English

Large Language Models (LLMs) have shown remarkable capabilities as autonomous agents, yet existing benchmarks either focus on single-agent tasks or are confined to narrow domains, failing to capture the dynamics of multi-agent coordination and competition. In this paper, we introduce MultiAgentBench, a comprehensive benchmark designed to evaluate LLM-based multi-agent systems across diverse, interactive scenarios. Our framework measures not only task completion but also the quality of collaboration and competition using novel, milestone-based key performance indicators. Moreover, we evaluate various coordination protocols (including star, chain, tree, and graph topologies) and innovative strategies such as group discussion and cognitive planning. Notably, gpt-4o-mini reaches the average highest task score, graph structure performs the best among coordination protocols in the research scenario, and cognitive planning improves milestone achievement rates by 3%. Code and datasets are public available at https://github.com/MultiagentBench/MARBLE.

MultiAgentBench: Оценка взаимодействия и конкуренции агентов на основе языковых моделей

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

Аннотация

Summary

Support