Free4D: Generazione di scene 4D senza necessità di regolazione con coerenza spazio-temporale

Abstract

Presentiamo Free4D, un nuovo framework senza necessità di tuning per la generazione di scene 4D a partire da una singola immagine. I metodi esistenti si concentrano principalmente sulla generazione a livello di oggetto, rendendo impossibile la generazione a livello di scena, oppure si basano su dataset di video multi-vista su larga scala per un addestramento costoso, con una capacità di generalizzazione limitata a causa della scarsità di dati di scene 4D. Al contrario, la nostra intuizione chiave è quella di distillare modelli di fondazione pre-addestrati per una rappresentazione coerente di scene 4D, che offre vantaggi promettenti come efficienza e generalizzabilità. 1) Per raggiungere questo obiettivo, animiamo prima l'immagine di input utilizzando modelli di diffusione da immagine a video, seguiti da un'inizializzazione della struttura geometrica 4D. 2) Per trasformare questa struttura approssimativa in video multi-vista coerenti spazio-temporalmente, progettiamo un meccanismo di guida adattivo con una strategia di denoising guidata da punti per la coerenza spaziale e una nuova strategia di sostituzione latente per la coerenza temporale. 3) Per elevare queste osservazioni generate in una rappresentazione 4D coerente, proponiamo un affinamento basato sulla modulazione per mitigare le incoerenze sfruttando appieno le informazioni generate. La rappresentazione 4D risultante consente un rendering controllabile in tempo reale, segnando un significativo avanzamento nella generazione di scene 4D basata su singola immagine.

English

We present Free4D, a novel tuning-free framework for 4D scene generation from a single image. Existing methods either focus on object-level generation, making scene-level generation infeasible, or rely on large-scale multi-view video datasets for expensive training, with limited generalization ability due to the scarcity of 4D scene data. In contrast, our key insight is to distill pre-trained foundation models for consistent 4D scene representation, which offers promising advantages such as efficiency and generalizability. 1) To achieve this, we first animate the input image using image-to-video diffusion models followed by 4D geometric structure initialization. 2) To turn this coarse structure into spatial-temporal consistent multiview videos, we design an adaptive guidance mechanism with a point-guided denoising strategy for spatial consistency and a novel latent replacement strategy for temporal coherence. 3) To lift these generated observations into consistent 4D representation, we propose a modulation-based refinement to mitigate inconsistencies while fully leveraging the generated information. The resulting 4D representation enables real-time, controllable rendering, marking a significant advancement in single-image-based 4D scene generation.

Free4D: Generazione di scene 4D senza necessità di regolazione con coerenza spazio-temporale

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

Abstract

Summary

Support

Support