PhysGame: Scoperta delle violazioni del buon senso fisico nei video di gioco.
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
December 2, 2024
Autori: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI
Abstract
I recenti progressi nei modelli linguistici basati su video (Video LLMs) hanno visto l'emergere di diverse capacità per ragionare e interpretare contenuti visivi dinamici. Tra questi, i video di gameplay si distinguono come una fonte di dati peculiare, spesso contenente difetti che sfidano il buon senso fisico. Questa caratteristica li rende un benchmark efficace per valutare la capacità poco esplorata di comprendere il buon senso fisico nei Video LLMs. In questo articolo, proponiamo PhysGame come un benchmark pionieristico per valutare le violazioni del buon senso fisico nei video di gameplay. PhysGame comprende 880 video associati a difetti che spaziano su quattro domini fondamentali (meccanica, cinematica, ottica e proprietà dei materiali) e attraverso 12 distinti concetti di buon senso fisico. Attraverso una valutazione approfondita di vari Video LLMs all'avanguardia, le nostre scoperte rivelano che le prestazioni dei Video LLMs open-source attuali sono significativamente inferiori rispetto a quelle dei concorrenti proprietari. Per colmare questa lacuna, curiamo un dataset di addestramento per l'ottimizzazione delle istruzioni, PhysInstruct, con 140.057 coppie domanda-risposta per facilitare l'apprendimento del buon senso fisico. Inoltre, proponiamo anche un dataset di ottimizzazione delle preferenze, PhysDPO, con 34.358 coppie di addestramento, in cui le risposte non preferite sono generate in base a titoli fuorvianti (cioè hacking delle informazioni meta), meno frame (cioè hacking temporale) e risoluzioni spaziali inferiori (cioè hacking spaziale). Basandoci sulla serie di dataset, proponiamo PhysVLM come un Video LLM arricchito di conoscenze fisiche. Esperimenti approfonditi sia sul benchmark orientato alla fisica PhysGame che sui benchmark generali di comprensione video dimostrano le prestazioni all'avanguardia di PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have
witnessed the emergence of diverse capabilities to reason and interpret dynamic
visual content. Among them, gameplay videos stand out as a distinctive data
source, often containing glitches that defy physics commonsense. This
characteristic renders them an effective benchmark for assessing the
under-explored capability of physical commonsense understanding in video LLMs.
In this paper, we propose PhysGame as a pioneering benchmark to evaluate
physical commonsense violations in gameplay videos. PhysGame comprises 880
videos associated with glitches spanning four fundamental domains (i.e.,
mechanics, kinematics, optics, and material properties) and across 12 distinct
physical commonsense. Through extensively evaluating various state-ofthe-art
video LLMs, our findings reveal that the performance of current open-source
video LLMs significantly lags behind that of proprietary counterparts. To
bridge this gap, we curate an instruction tuning dataset PhysInstruct with
140,057 question-answering pairs to facilitate physical commonsense learning.
In addition, we also propose a preference optimization dataset PhysDPO with
34,358 training pairs, where the dis-preferred responses are generated
conditioned on misleading titles (i.e., meta information hacking), fewer frames
(i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking).
Based on the suite of datasets, we propose PhysVLM as a physical
knowledge-enhanced video LLM. Extensive experiments on both physical-oriented
benchmark PhysGame and general video understanding benchmarks demonstrate the
state-ofthe-art performance of PhysVLM.Summary
AI-Generated Summary