Diffusione video coerente con il mondo mediante modellazione 3D esplicita
World-consistent Video Diffusion with Explicit 3D Modeling
December 2, 2024
Autori: Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
cs.AI
Abstract
I recenti progressi nei modelli di diffusione hanno stabilito nuovi standard nella generazione di immagini e video, consentendo una sintesi visiva realistica attraverso contesti a singolo e multi-frame. Tuttavia, questi modelli faticano ancora a generare in modo efficiente ed esplicito contenuti 3D-coerenti. Per affrontare questo problema, proponiamo World-consistent Video Diffusion (WVD), un nuovo framework che incorpora una supervisione 3D esplicita utilizzando immagini XYZ, che codificano le coordinate globali 3D per ciascun pixel dell'immagine. Più specificamente, addestriamo un trasformatore di diffusione per apprendere la distribuzione congiunta di frame RGB e XYZ. Questo approccio supporta l'adattabilità multi-task tramite una strategia di inpainting flessibile. Ad esempio, WVD può stimare frame XYZ da RGB ground-truth o generare nuovi frame RGB utilizzando proiezioni XYZ lungo una traiettoria della telecamera specificata. In questo modo, WVD unifica compiti come la generazione da immagine singola a 3D, lo stereo multi-vista e la generazione di video controllati dalla telecamera. Il nostro approccio dimostra prestazioni competitive su diversi benchmark, fornendo una soluzione scalabile per la generazione di video e immagini coerenti in 3D con un singolo modello preaddestrato.
English
Recent advancements in diffusion models have set new benchmarks in image and
video generation, enabling realistic visual synthesis across single- and
multi-frame contexts. However, these models still struggle with efficiently and
explicitly generating 3D-consistent content. To address this, we propose
World-consistent Video Diffusion (WVD), a novel framework that incorporates
explicit 3D supervision using XYZ images, which encode global 3D coordinates
for each image pixel. More specifically, we train a diffusion transformer to
learn the joint distribution of RGB and XYZ frames. This approach supports
multi-task adaptability via a flexible inpainting strategy. For example, WVD
can estimate XYZ frames from ground-truth RGB or generate novel RGB frames
using XYZ projections along a specified camera trajectory. In doing so, WVD
unifies tasks like single-image-to-3D generation, multi-view stereo, and
camera-controlled video generation. Our approach demonstrates competitive
performance across multiple benchmarks, providing a scalable solution for
3D-consistent video and image generation with a single pretrained model.Summary
AI-Generated Summary