DynamicScaler: Generazione Video Fluida e Scalabile per Scene Panoramiche
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
Autori: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
Abstract
La crescente domanda di applicazioni immersive di AR/VR e di intelligenza spaziale ha aumentato la necessità di generare video di alta qualità a livello di scena e panoramici a 360°. Tuttavia, la maggior parte dei modelli di diffusione video sono vincolati da risoluzioni e proporzioni limitate, che ne limitano l'applicabilità alla sintesi di contenuti dinamici a livello di scena. In questo lavoro, proponiamo il DynamicScaler, che affronta tali sfide consentendo la sintesi di scene dinamiche scalabili spazialmente e panoramiche che mantengono coerenza tra scene panoramiche di dimensioni arbitrarie. In particolare, introduciamo un Denoiser a Spostamento dell'Offset, che facilita il denoising efficiente, sincrono e coerente di scene dinamiche panoramiche tramite un modello di diffusione con risoluzione fissa attraverso una finestra rotante senza soluzione di continuità, che garantisce transizioni di confine senza soluzione di continuità e coerenza in tutto lo spazio panoramico, adattandosi a risoluzioni e proporzioni variabili. Inoltre, utilizziamo un meccanismo di Guida al Movimento Globale per garantire sia la fedeltà dei dettagli locali che la continuità del movimento globale. Estesi esperimenti dimostrano che il nostro metodo raggiunge una qualità superiore dei contenuti e del movimento nella generazione di video a livello di scena panoramica, offrendo una soluzione efficiente, scalabile e priva di addestramento per la creazione di scene dinamiche immersive con un consumo costante di VRAM indipendentemente dalla risoluzione del video in uscita. La nostra pagina del progetto è disponibile su https://dynamic-scaler.pages.dev/.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.Summary
AI-Generated Summary