Diffusione video coerente con il mondo mediante modellazione 3D esplicita

Abstract

I recenti progressi nei modelli di diffusione hanno stabilito nuovi standard nella generazione di immagini e video, consentendo una sintesi visiva realistica attraverso contesti a singolo e multi-frame. Tuttavia, questi modelli faticano ancora a generare in modo efficiente ed esplicito contenuti 3D-coerenti. Per affrontare questo problema, proponiamo World-consistent Video Diffusion (WVD), un nuovo framework che incorpora una supervisione 3D esplicita utilizzando immagini XYZ, che codificano le coordinate globali 3D per ciascun pixel dell'immagine. Più specificamente, addestriamo un trasformatore di diffusione per apprendere la distribuzione congiunta di frame RGB e XYZ. Questo approccio supporta l'adattabilità multi-task tramite una strategia di inpainting flessibile. Ad esempio, WVD può stimare frame XYZ da RGB ground-truth o generare nuovi frame RGB utilizzando proiezioni XYZ lungo una traiettoria della telecamera specificata. In questo modo, WVD unifica compiti come la generazione da immagine singola a 3D, lo stereo multi-vista e la generazione di video controllati dalla telecamera. Il nostro approccio dimostra prestazioni competitive su diversi benchmark, fornendo una soluzione scalabile per la generazione di video e immagini coerenti in 3D con un singolo modello preaddestrato.

English

Recent advancements in diffusion models have set new benchmarks in image and video generation, enabling realistic visual synthesis across single- and multi-frame contexts. However, these models still struggle with efficiently and explicitly generating 3D-consistent content. To address this, we propose World-consistent Video Diffusion (WVD), a novel framework that incorporates explicit 3D supervision using XYZ images, which encode global 3D coordinates for each image pixel. More specifically, we train a diffusion transformer to learn the joint distribution of RGB and XYZ frames. This approach supports multi-task adaptability via a flexible inpainting strategy. For example, WVD can estimate XYZ frames from ground-truth RGB or generate novel RGB frames using XYZ projections along a specified camera trajectory. In doing so, WVD unifies tasks like single-image-to-3D generation, multi-view stereo, and camera-controlled video generation. Our approach demonstrates competitive performance across multiple benchmarks, providing a scalable solution for 3D-consistent video and image generation with a single pretrained model.

Diffusione video coerente con il mondo mediante modellazione 3D esplicita

World-consistent Video Diffusion with Explicit 3D Modeling

Abstract

Summary

Support