EmbodiedBench: 시각 중심의 신체화된 에이전트를 위한 다중 모달 대형 언어 모델에 대한 포괄적인 벤치마킹
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
저자: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
초록
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)을 활용하여 실제 과제를 해결하는 데 유망한 길을 제공하는 것은 실체화된 에이전트를 만드는 데 유망한 길을 제공합니다. 언어 중심의 실체화된 에이전트가 상당한 관심을 받았지만, MLLM 기반의 실체화된 에이전트는 포괄적인 평가 프레임워크의 부재로 인해 미개척된 상태입니다. 이 간극을 메우기 위해 우리는 시각 중심의 실체화된 에이전트를 평가하기 위해 설계된 포괄적인 벤치마크인 EmbodiedBench를 소개합니다. EmbodiedBench는 다음을 특징으로 합니다: (1) 고수준 의미 작업(예: 가정)부터 핵심적인 행동(예: 탐색 및 조작)을 포함하는 네 가지 환경에서 다양한 1,128개의 테스트 작업; 그리고 (2) 상식적 추론, 복잡한 지시 이해, 공간 인식, 시각 지각, 장기 계획 등 에이전트의 필수 능력을 평가하는 여섯 가지 신중하게 선별된 하위 집합을 포함합니다. 우리는 EmbodiedBench 내에서 13가지 주요 프로프리테어리 및 오픈 소스 MLLM을 평가하기 위해 광범위한 실험을 통해 연구했습니다. 우리의 연구 결과는 MLLM이 고수준 작업에서 뛰어나지만 저수준 조작에서 어려움을 겪는다는 것을 보여주며, 최고의 모델인 GPT-4o가 평균 28.9%의 점수를 기록했습니다. EmbodiedBench는 기존의 도전 과제를 강조하는 뿐만 아니라 MLLM 기반의 실체화된 에이전트를 발전시키기 위한 가치 있는 통찰을 제공하는 다면적인 표준화된 평가 플랫폼을 제공합니다. 우리의 코드는 https://embodiedbench.github.io에서 확인할 수 있습니다.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary