ChatPaper.aiChatPaper

PhysBench: 물리 세계 이해를 위한 비전-언어 모델의 벤치마킹 및 향상

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

January 27, 2025
저자: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI

초록

물리 세계를 이해하는 것은 신체 지능 인공지능에서의 근본적인 과제로, 복잡한 작업을 수행하고 실제 환경에서 안전하게 작동하기 위한 핵심 요소입니다. 시각-언어 모델(Vision-Language Models, VLMs)은 신체 지능을 위한 추론과 작업 계획에 큰 가능성을 보여주었지만, 물리 현상을 이해하는 능력은 여전히 매우 제한적입니다. 이 간극을 메우기 위해 우리는 VLMs의 물리 세계 이해 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 PhysBench를 소개합니다. PhysBench에는 4가지 주요 도메인(물리적 객체 속성, 물리적 객체 관계, 물리적 장면 이해, 물리 기반 역학)으로 분류된 10,002개의 비디오-이미지-텍스트 데이터가 포함되어 있으며, 이는 19개 하위 클래스와 8가지 다른 능력 차원으로 나뉩니다. 75개의 대표적인 VLMs에서 수행된 광범위한 실험 결과, 이러한 모델들이 상식적 추론에서 뛰어나지만 물리 세계를 이해하는 데 어려움을 겪는다는 것을 보여줍니다. 이는 훈련 데이터에 물리적 지식이 부족하고 내재된 물리적 사전 지식이 없기 때문일 것으로 생각됩니다. 이러한 결핍을 극복하기 위해 우리는 VLMs의 일반화 강점과 시각 모델의 전문 지식을 결합한 혁신적인 프레임워크인 PhysAgent를 소개합니다. PhysAgent는 GPT-4o에서 18.4%의 개선을 포함한 다양한 작업에서 VLMs의 물리적 이해를 크게 향상시킴으로써 VLMs의 물리 세계 이해 능력을 향상시킬 수 있다는 결과를 보여줍니다. 더 나아가, 우리의 결과는 MOKA와 같은 신체 지능 에이전트에 도움이 될 수 있다는 것을 입증합니다. PhysBench와 PhysAgent가 VLMs와 물리 세계 이해 사이의 간극을 좁히는 데 유용한 통찰을 제공하고 이에 기여할 것으로 믿습니다.
English
Understanding the physical world is a fundamental challenge in embodied AI, critical for enabling agents to perform complex tasks and operate safely in real-world environments. While Vision-Language Models (VLMs) have shown great promise in reasoning and task planning for embodied agents, their ability to comprehend physical phenomena remains extremely limited. To close this gap, we introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs' physical world understanding capability across a diverse set of tasks. PhysBench contains 10,002 entries of interleaved video-image-text data, categorized into four major domains: physical object properties, physical object relationships, physical scene understanding, and physics-based dynamics, further divided into 19 subclasses and 8 distinct capability dimensions. Our extensive experiments, conducted on 75 representative VLMs, reveal that while these models excel in common-sense reasoning, they struggle with understanding the physical world -- likely due to the absence of physical knowledge in their training data and the lack of embedded physical priors. To tackle the shortfall, we introduce PhysAgent, a novel framework that combines the generalization strengths of VLMs with the specialized expertise of vision models, significantly enhancing VLMs' physical understanding across a variety of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results demonstrate that enhancing VLMs' physical world understanding capabilities can help embodied agents such as MOKA. We believe that PhysBench and PhysAgent offer valuable insights and contribute to bridging the gap between VLMs and physical world understanding.

Summary

AI-Generated Summary

PDF183January 31, 2025