셰이더로서의 확산: 다목적 비디오 생성 제어를 위한 3D 인식 비디오 확산
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
저자: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
초록
확산 모델은 텍스트 프롬프트나 이미지에서 고품질 비디오를 생성하는 데 놀라운 성능을 보여주었습니다. 그러나 카메라 조작이나 콘텐츠 편집과 같은 비디오 생성 프로세스에 대한 정밀한 제어는 여전히 중요한 과제입니다. 제어된 비디오 생성을 위한 기존 방법은 일반적으로 단일 제어 유형으로 제한되어 있어 다양한 제어 요구를 처리할 유연성이 부족합니다. 본 논문에서는 다중 비디오 제어 작업을 지원하는 혁신적인 접근 방식인 Diffusion as Shader (DaS)를 소개합니다. 우리의 주요 통찰력은 다양한 비디오 제어를 달성하기 위해서는 비디오가 본질적으로 동적 3D 콘텐츠의 2D 렌더링이기 때문에 3D 제어 신호를 활용해야 한다는 것입니다. 이전 방법이 2D 제어 신호로 제한되었다면, DaS는 제어 입력으로 3D 추적 비디오를 활용하여 비디오 확산 프로세스를 본질적으로 3D 인식으로 만듭니다. 이 혁신은 DaS가 단순히 3D 추적 비디오를 조작함으로써 다양한 비디오 제어를 달성할 수 있게 합니다. 3D 추적 비디오를 사용하는 또 다른 장점은 프레임을 효과적으로 연결하여 생성된 비디오의 시간적 일관성을 크게 향상시킬 수 있다는 것입니다. 8개의 H800 GPU에서 3일간 미세 조정을 통해 10,000개 미만의 비디오를 사용하여 DaS는 메쉬-비디오 생성, 카메라 제어, 모션 전송 및 객체 조작을 포함한 다양한 작업에서 강력한 제어 능력을 보여줍니다.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary