ChatPaper.aiChatPaper

Verso la Generazione di Video Fisicamente Plausibili tramite Pianificazione VLM

Towards Physically Plausible Video Generation via VLM Planning

March 30, 2025
Autori: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI

Abstract

I modelli di diffusione video (VDM) hanno compiuto progressi significativi negli ultimi anni, consentendo la generazione di video altamente realistici e attirando l'attenzione della comunità per il loro potenziale come simulatori del mondo. Tuttavia, nonostante le loro capacità, i VDM spesso non riescono a produrre video fisicamente plausibili a causa di una mancanza intrinseca di comprensione della fisica, risultando in dinamiche e sequenze di eventi errate. Per affrontare questa limitazione, proponiamo un nuovo framework di generazione immagine-video in due fasi che incorpora esplicitamente la fisica. Nella prima fase, utilizziamo un Vision Language Model (VLM) come pianificatore di movimento a grana grossa, integrando il ragionamento a catena di pensiero e consapevole della fisica per prevedere traiettorie/cambiamenti di movimento approssimativi che si avvicinano alle dinamiche fisiche del mondo reale, garantendo al contempo la coerenza inter-fotogramma. Nella seconda fase, utilizziamo le traiettorie/cambiamenti di movimento previsti per guidare la generazione video di un VDM. Poiché le traiettorie/cambiamenti di movimento previsti sono approssimativi, viene aggiunto rumore durante l'inferenza per fornire libertà al VDM nella generazione di movimenti con dettagli più fini. I risultati sperimentali estesi dimostrano che il nostro framework può produrre movimenti fisicamente plausibili, e le valutazioni comparative evidenziano la notevole superiorità del nostro approccio rispetto ai metodi esistenti. Ulteriori risultati video sono disponibili sulla nostra Pagina del Progetto: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Summary

AI-Generated Summary

PDF383April 3, 2025