Verso la Generazione di Video Fisicamente Plausibili tramite Pianificazione VLM
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Autori: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Abstract
I modelli di diffusione video (VDM) hanno compiuto progressi significativi negli ultimi anni, consentendo la generazione di video altamente realistici e attirando l'attenzione della comunità per il loro potenziale come simulatori del mondo. Tuttavia, nonostante le loro capacità, i VDM spesso non riescono a produrre video fisicamente plausibili a causa di una mancanza intrinseca di comprensione della fisica, risultando in dinamiche e sequenze di eventi errate. Per affrontare questa limitazione, proponiamo un nuovo framework di generazione immagine-video in due fasi che incorpora esplicitamente la fisica. Nella prima fase, utilizziamo un Vision Language Model (VLM) come pianificatore di movimento a grana grossa, integrando il ragionamento a catena di pensiero e consapevole della fisica per prevedere traiettorie/cambiamenti di movimento approssimativi che si avvicinano alle dinamiche fisiche del mondo reale, garantendo al contempo la coerenza inter-fotogramma. Nella seconda fase, utilizziamo le traiettorie/cambiamenti di movimento previsti per guidare la generazione video di un VDM. Poiché le traiettorie/cambiamenti di movimento previsti sono approssimativi, viene aggiunto rumore durante l'inferenza per fornire libertà al VDM nella generazione di movimenti con dettagli più fini. I risultati sperimentali estesi dimostrano che il nostro framework può produrre movimenti fisicamente plausibili, e le valutazioni comparative evidenziano la notevole superiorità del nostro approccio rispetto ai metodi esistenti. Ulteriori risultati video sono disponibili sulla nostra Pagina del Progetto: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary