DynamicScaler: 원활하고 확장 가능한 파노라마 장면을 위한 비디오 생성
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
December 15, 2024
저자: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI
초록
입체형 AR/VR 애플리케이션 및 공간 지능에 대한 증가하는 수요는 고품질의 장면 수준 및 360도 파노라마 비디오를 생성하는 필요성을 높였습니다. 그러나 대부분의 비디오 확산 모델은 해상도와 종횡비가 제한되어 있어 장면 수준의 동적 콘텐츠 합성에 적용 범위가 제한됩니다. 본 연구에서는 DynamicScaler를 제안하여 이러한 도전에 대응하며 임의 크기의 파노라마 장면 간 일관성을 유지하는 공간적으로 확장 가능하고 파노라마 동적 장면 합성을 가능하게 합니다. 구체적으로, 우리는 Offset Shifting Denoiser를 소개하여 고정 해상도의 확산 모델을 통해 회전하는 창을 통해 실현되는 효율적이고 동기화된 일관된 노이즈 제거를 통해 파노라마 동적 장면의 일관성을 보존합니다. 이는 전체 파노라마 공간 전체에 걸쳐 일관성 있는 경계 전환과 일관성을 보장하며 다양한 해상도와 종횡비를 수용합니다. 또한, 우리는 지역 세부 사항의 충실도와 전역 모션 연속성을 보장하기 위해 Global Motion Guidance 메커니즘을 사용합니다. 광범위한 실험을 통해 우리의 방법이 파노라마 장면 수준 비디오 생성에서 우수한 콘텐츠 및 모션 품질을 달성하며 출력 비디오 해상도에 관계없이 일정한 VRAM 소비를 갖는 교육 불필요, 효율적이고 확장 가능한 솔루션을 제공함을 입증합니다. 프로젝트 페이지는 https://dynamic-scaler.pages.dev/에서 확인할 수 있습니다.
English
The increasing demand for immersive AR/VR applications and spatial
intelligence has heightened the need to generate high-quality scene-level and
360{\deg} panoramic video. However, most video diffusion models are constrained
by limited resolution and aspect ratio, which restricts their applicability to
scene-level dynamic content synthesis. In this work, we propose the
DynamicScaler, addressing these challenges by enabling spatially scalable and
panoramic dynamic scene synthesis that preserves coherence across panoramic
scenes of arbitrary size. Specifically, we introduce a Offset Shifting
Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic
dynamic scenes via a diffusion model with fixed resolution through a seamless
rotating Window, which ensures seamless boundary transitions and consistency
across the entire panoramic space, accommodating varying resolutions and aspect
ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure
both local detail fidelity and global motion continuity. Extensive experiments
demonstrate our method achieves superior content and motion quality in
panoramic scene-level video generation, offering a training-free, efficient,
and scalable solution for immersive dynamic scene creation with constant VRAM
consumption regardless of the output video resolution. Our project page is
available at https://dynamic-scaler.pages.dev/.