VideoScene: Distillare Modelli di Diffusione Video per Generare Scene 3D in un Singolo Passo
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
April 2, 2025
Autori: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan
cs.AI
Abstract
Il recupero di scene 3D da viste sparse è un compito impegnativo a causa del suo problema intrinsecamente mal posto. I metodi convenzionali hanno sviluppato soluzioni specializzate (ad esempio, regolarizzazione geometrica o modelli deterministici feed-forward) per mitigare il problema. Tuttavia, continuano a soffrire di un degrado delle prestazioni a causa della sovrapposizione minima tra le viste di input con informazioni visive insufficienti. Fortunatamente, i recenti modelli generativi di video mostrano promesse nell'affrontare questa sfida, poiché sono in grado di generare clip video con strutture 3D plausibili. Supportati da grandi modelli di diffusione video pre-addestrati, alcune ricerche pionieristiche iniziano a esplorare il potenziale del prior generativo video e a creare scene 3D da viste sparse. Nonostante miglioramenti impressionanti, sono limitati da tempi di inferenza lenti e dalla mancanza di vincoli 3D, portando a inefficienze e artefatti di ricostruzione che non si allineano con la struttura geometrica del mondo reale. In questo articolo, proponiamo VideoScene per distillare il modello di diffusione video e generare scene 3D in un unico passaggio, con l'obiettivo di costruire uno strumento efficiente ed efficace per colmare il divario tra video e 3D. Nello specifico, progettiamo una strategia di distillazione del flusso di salto 3D-aware per saltare le informazioni ridondanti che richiedono tempo e addestriamo una rete di policy di denoising dinamica per determinare in modo adattivo il timestep ottimale di salto durante l'inferenza. Esperimenti estensivi dimostrano che il nostro VideoScene raggiunge risultati di generazione di scene 3D più rapidi e superiori rispetto ai precedenti modelli di diffusione video, evidenziando il suo potenziale come strumento efficiente per future applicazioni da video a 3D. Pagina del progetto: https://hanyang-21.github.io/VideoScene
English
Recovering 3D scenes from sparse views is a challenging task due to its
inherent ill-posed problem. Conventional methods have developed specialized
solutions (e.g., geometry regularization or feed-forward deterministic model)
to mitigate the issue. However, they still suffer from performance degradation
by minimal overlap across input views with insufficient visual information.
Fortunately, recent video generative models show promise in addressing this
challenge as they are capable of generating video clips with plausible 3D
structures. Powered by large pretrained video diffusion models, some pioneering
research start to explore the potential of video generative prior and create 3D
scenes from sparse views. Despite impressive improvements, they are limited by
slow inference time and the lack of 3D constraint, leading to inefficiencies
and reconstruction artifacts that do not align with real-world geometry
structure. In this paper, we propose VideoScene to distill the video diffusion
model to generate 3D scenes in one step, aiming to build an efficient and
effective tool to bridge the gap from video to 3D. Specifically, we design a
3D-aware leap flow distillation strategy to leap over time-consuming redundant
information and train a dynamic denoising policy network to adaptively
determine the optimal leap timestep during inference. Extensive experiments
demonstrate that our VideoScene achieves faster and superior 3D scene
generation results than previous video diffusion models, highlighting its
potential as an efficient tool for future video to 3D applications. Project
Page: https://hanyang-21.github.io/VideoSceneSummary
AI-Generated Summary