PhysBench: Benchmarken en Verbeteren van Visie-Taal Modellen voor Begrip van de Fysieke Wereld
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
January 27, 2025
Auteurs: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang
cs.AI
Samenvatting
Het begrijpen van de fysieke wereld is een fundamentele uitdaging in embodied AI, essentieel om agenten in staat te stellen complexe taken uit te voeren en veilig te opereren in echte omgevingen. Hoewel Vision-Language Modellen (VLM's) veelbelovend zijn gebleken in redeneren en taakplanning voor embodied agenten, blijft hun vermogen om fysische fenomenen te begrijpen uiterst beperkt. Om deze kloof te dichten, introduceren we PhysBench, een uitgebreide benchmark ontworpen om de capaciteit van VLM's om de fysieke wereld te begrijpen te evalueren over een divers scala aan taken. PhysBench bevat 10.002 vermeldingen van geïnterlinieerde video-afbeelding-tekstgegevens, gecategoriseerd in vier belangrijke domeinen: fysieke objecteigenschappen, fysieke objectrelaties, begrip van fysieke scènes en op fysica gebaseerde dynamica, verder onderverdeeld in 19 subklassen en 8 onderscheidende capaciteitsdimensies. Onze uitgebreide experimenten, uitgevoerd op 75 representatieve VLM's, tonen aan dat hoewel deze modellen uitblinken in gezond verstand redeneren, ze moeite hebben met het begrijpen van de fysieke wereld -- waarschijnlijk als gevolg van het ontbreken van fysische kennis in hun trainingsgegevens en het gebrek aan ingebedde fysische aannames. Om het tekort aan te pakken, introduceren we PhysAgent, een nieuw raamwerk dat de generalisatiekracht van VLM's combineert met de gespecialiseerde expertise van vision modellen, waardoor VLM's aanzienlijk verbeterd begrip van de fysieke wereld krijgen over een verscheidenheid aan taken, inclusief een verbetering van 18,4\% op GPT-4o. Bovendien tonen onze resultaten aan dat het verbeteren van de capaciteiten van VLM's om de fysieke wereld te begrijpen embodied agents zoals MOKA kan helpen. Wij geloven dat PhysBench en PhysAgent waardevolle inzichten bieden en bijdragen aan het overbruggen van de kloof tussen VLM's en begrip van de fysieke wereld.
English
Understanding the physical world is a fundamental challenge in embodied AI,
critical for enabling agents to perform complex tasks and operate safely in
real-world environments. While Vision-Language Models (VLMs) have shown great
promise in reasoning and task planning for embodied agents, their ability to
comprehend physical phenomena remains extremely limited. To close this gap, we
introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs'
physical world understanding capability across a diverse set of tasks.
PhysBench contains 10,002 entries of interleaved video-image-text data,
categorized into four major domains: physical object properties, physical
object relationships, physical scene understanding, and physics-based dynamics,
further divided into 19 subclasses and 8 distinct capability dimensions. Our
extensive experiments, conducted on 75 representative VLMs, reveal that while
these models excel in common-sense reasoning, they struggle with understanding
the physical world -- likely due to the absence of physical knowledge in their
training data and the lack of embedded physical priors. To tackle the
shortfall, we introduce PhysAgent, a novel framework that combines the
generalization strengths of VLMs with the specialized expertise of vision
models, significantly enhancing VLMs' physical understanding across a variety
of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results
demonstrate that enhancing VLMs' physical world understanding capabilities can
help embodied agents such as MOKA. We believe that PhysBench and PhysAgent
offer valuable insights and contribute to bridging the gap between VLMs and
physical world understanding.Summary
AI-Generated Summary