シェーダーとしての拡散:多目的ビデオ生成制御のための3D認識ビデオ拡散
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
著者: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
要旨
拡散モデルは、テキストプロンプトや画像から高品質なビデオを生成する際に印象的な性能を発揮しています。ただし、カメラ操作やコンテンツ編集など、ビデオ生成プロセスの細かな制御は依然として大きな課題です。制御されたビデオ生成の既存手法は、通常、単一の制御タイプに制限されており、多様な制御要求を処理する柔軟性が欠如しています。本論文では、複数のビデオ制御タスクを統一されたアーキテクチャ内でサポートする革新的なアプローチである「Diffusion as Shader(DaS)」を紹介します。我々の主要な洞察は、多目的なビデオ制御を実現するには、ビデオが基本的に動的な3Dコンテンツの2Dレンダリングであるため、3D制御信号を活用する必要があるということです。従来の2D制御信号に制限された従来の手法とは異なり、DaSは制御入力として3Dトラッキングビデオを活用することで、ビデオ拡散プロセスを本質的に3D認識させます。この革新により、DaSは単に3Dトラッキングビデオを操作することで、幅広いビデオ制御を実現できます。3Dトラッキングビデオを使用するさらなる利点は、フレームを効果的にリンクし、生成されたビデオの時間的一貫性を著しく向上させる能力です。8 H800 GPUで3日間の微調整を行い、10k本未満のビデオを使用して、DaSは、メッシュからビデオ生成、カメラ制御、モーション転送、オブジェクト操作を含むさまざまなタスクにわたる強力な制御能力を示しています。
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary