ChatPaper.aiChatPaper

셰이더로서의 확산: 다목적 비디오 생성 제어를 위한 3D 인식 비디오 확산

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

January 7, 2025
저자: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI

초록

확산 모델은 텍스트 프롬프트나 이미지에서 고품질 비디오를 생성하는 데 놀라운 성능을 보여주었습니다. 그러나 카메라 조작이나 콘텐츠 편집과 같은 비디오 생성 프로세스에 대한 정밀한 제어는 여전히 중요한 과제입니다. 제어된 비디오 생성을 위한 기존 방법은 일반적으로 단일 제어 유형으로 제한되어 있어 다양한 제어 요구를 처리할 유연성이 부족합니다. 본 논문에서는 다중 비디오 제어 작업을 지원하는 혁신적인 접근 방식인 Diffusion as Shader (DaS)를 소개합니다. 우리의 주요 통찰력은 다양한 비디오 제어를 달성하기 위해서는 비디오가 본질적으로 동적 3D 콘텐츠의 2D 렌더링이기 때문에 3D 제어 신호를 활용해야 한다는 것입니다. 이전 방법이 2D 제어 신호로 제한되었다면, DaS는 제어 입력으로 3D 추적 비디오를 활용하여 비디오 확산 프로세스를 본질적으로 3D 인식으로 만듭니다. 이 혁신은 DaS가 단순히 3D 추적 비디오를 조작함으로써 다양한 비디오 제어를 달성할 수 있게 합니다. 3D 추적 비디오를 사용하는 또 다른 장점은 프레임을 효과적으로 연결하여 생성된 비디오의 시간적 일관성을 크게 향상시킬 수 있다는 것입니다. 8개의 H800 GPU에서 3일간 미세 조정을 통해 10,000개 미만의 비디오를 사용하여 DaS는 메쉬-비디오 생성, 카메라 제어, 모션 전송 및 객체 조작을 포함한 다양한 작업에서 강력한 제어 능력을 보여줍니다.
English
Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Summary

AI-Generated Summary

PDF232January 8, 2025