Zero4D: Generazione di Video 4D Senza Addestramento da un Singolo Video Utilizzando Modelli di Diffusione Video Preesistenti
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Autori: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Abstract
Recentemente, la generazione di video multi-vista o 4D è emersa come un importante argomento di ricerca. Tuttavia, gli approcci recenti alla generazione 4D continuano a confrontarsi con limitazioni fondamentali, poiché si basano principalmente sull'utilizzo di più modelli di diffusione video con ulteriori addestramenti o su un addestramento computazionalmente intensivo di un modello completo di diffusione 4D, con dati 4D reali limitati e costi computazionali elevati. Per affrontare queste sfide, qui proponiamo il primo metodo di generazione di video 4D senza addestramento che sfrutta modelli di diffusione video già disponibili per generare video multi-vista a partire da un singolo video di input. Il nostro approccio si compone di due passaggi chiave: (1) Designando i frame ai bordi nella griglia di campionamento spazio-temporale come frame chiave, li sintetizziamo inizialmente utilizzando un modello di diffusione video, sfruttando una tecnica di deformazione basata sulla profondità come guida. Questo approccio garantisce una coerenza strutturale tra i frame generati, preservando la coerenza spaziale e temporale. (2) Successivamente, interpoliamo i frame rimanenti utilizzando un modello di diffusione video, costruendo una griglia di campionamento completamente popolata e temporalmente coerente, preservando la coerenza spaziale e temporale. Attraverso questo approccio, estendiamo un singolo video in un video multi-vista lungo nuove traiettorie della telecamera, mantenendo la coerenza spazio-temporale. Il nostro metodo è privo di addestramento e sfrutta appieno un modello di diffusione video già disponibile, offrendo una soluzione pratica ed efficace per la generazione di video multi-vista.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary