Free4D: Generazione di scene 4D senza necessità di regolazione con coerenza spazio-temporale
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency
March 26, 2025
Autori: Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu
cs.AI
Abstract
Presentiamo Free4D, un nuovo framework senza necessità di tuning per la generazione di scene 4D a partire da una singola immagine. I metodi esistenti si concentrano principalmente sulla generazione a livello di oggetto, rendendo impossibile la generazione a livello di scena, oppure si basano su dataset di video multi-vista su larga scala per un addestramento costoso, con una capacità di generalizzazione limitata a causa della scarsità di dati di scene 4D. Al contrario, la nostra intuizione chiave è quella di distillare modelli di fondazione pre-addestrati per una rappresentazione coerente di scene 4D, che offre vantaggi promettenti come efficienza e generalizzabilità. 1) Per raggiungere questo obiettivo, animiamo prima l'immagine di input utilizzando modelli di diffusione da immagine a video, seguiti da un'inizializzazione della struttura geometrica 4D. 2) Per trasformare questa struttura approssimativa in video multi-vista coerenti spazio-temporalmente, progettiamo un meccanismo di guida adattivo con una strategia di denoising guidata da punti per la coerenza spaziale e una nuova strategia di sostituzione latente per la coerenza temporale. 3) Per elevare queste osservazioni generate in una rappresentazione 4D coerente, proponiamo un affinamento basato sulla modulazione per mitigare le incoerenze sfruttando appieno le informazioni generate. La rappresentazione 4D risultante consente un rendering controllabile in tempo reale, segnando un significativo avanzamento nella generazione di scene 4D basata su singola immagine.
English
We present Free4D, a novel tuning-free framework for 4D scene generation from
a single image. Existing methods either focus on object-level generation,
making scene-level generation infeasible, or rely on large-scale multi-view
video datasets for expensive training, with limited generalization ability due
to the scarcity of 4D scene data. In contrast, our key insight is to distill
pre-trained foundation models for consistent 4D scene representation, which
offers promising advantages such as efficiency and generalizability. 1) To
achieve this, we first animate the input image using image-to-video diffusion
models followed by 4D geometric structure initialization. 2) To turn this
coarse structure into spatial-temporal consistent multiview videos, we design
an adaptive guidance mechanism with a point-guided denoising strategy for
spatial consistency and a novel latent replacement strategy for temporal
coherence. 3) To lift these generated observations into consistent 4D
representation, we propose a modulation-based refinement to mitigate
inconsistencies while fully leveraging the generated information. The resulting
4D representation enables real-time, controllable rendering, marking a
significant advancement in single-image-based 4D scene generation.Summary
AI-Generated Summary