ChatPaper.aiChatPaper

DynamicScaler: 원활하고 확장 가능한 파노라마 장면을 위한 비디오 생성

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

December 15, 2024
저자: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang
cs.AI

초록

입체형 AR/VR 애플리케이션 및 공간 지능에 대한 증가하는 수요는 고품질의 장면 수준 및 360도 파노라마 비디오를 생성하는 필요성을 높였습니다. 그러나 대부분의 비디오 확산 모델은 해상도와 종횡비가 제한되어 있어 장면 수준의 동적 콘텐츠 합성에 적용 범위가 제한됩니다. 본 연구에서는 DynamicScaler를 제안하여 이러한 도전에 대응하며 임의 크기의 파노라마 장면 간 일관성을 유지하는 공간적으로 확장 가능하고 파노라마 동적 장면 합성을 가능하게 합니다. 구체적으로, 우리는 Offset Shifting Denoiser를 소개하여 고정 해상도의 확산 모델을 통해 회전하는 창을 통해 실현되는 효율적이고 동기화된 일관된 노이즈 제거를 통해 파노라마 동적 장면의 일관성을 보존합니다. 이는 전체 파노라마 공간 전체에 걸쳐 일관성 있는 경계 전환과 일관성을 보장하며 다양한 해상도와 종횡비를 수용합니다. 또한, 우리는 지역 세부 사항의 충실도와 전역 모션 연속성을 보장하기 위해 Global Motion Guidance 메커니즘을 사용합니다. 광범위한 실험을 통해 우리의 방법이 파노라마 장면 수준 비디오 생성에서 우수한 콘텐츠 및 모션 품질을 달성하며 출력 비디오 해상도에 관계없이 일정한 VRAM 소비를 갖는 교육 불필요, 효율적이고 확장 가능한 솔루션을 제공함을 입증합니다. 프로젝트 페이지는 https://dynamic-scaler.pages.dev/에서 확인할 수 있습니다.
English
The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360{\deg} panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose the DynamicScaler, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Our project page is available at https://dynamic-scaler.pages.dev/.
PDF72December 17, 2024