シェーダーとしての拡散:多目的ビデオ生成制御のための3D認識ビデオ拡散

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

January 7, 2025
著者: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI

要旨

拡散モデルは、テキストプロンプトや画像から高品質なビデオを生成する際に印象的な性能を発揮しています。ただし、カメラ操作やコンテンツ編集など、ビデオ生成プロセスの細かな制御は依然として大きな課題です。制御されたビデオ生成の既存手法は、通常、単一の制御タイプに制限されており、多様な制御要求を処理する柔軟性が欠如しています。本論文では、複数のビデオ制御タスクを統一されたアーキテクチャ内でサポートする革新的なアプローチである「Diffusion as Shader(DaS)」を紹介します。我々の主要な洞察は、多目的なビデオ制御を実現するには、ビデオが基本的に動的な3Dコンテンツの2Dレンダリングであるため、3D制御信号を活用する必要があるということです。従来の2D制御信号に制限された従来の手法とは異なり、DaSは制御入力として3Dトラッキングビデオを活用することで、ビデオ拡散プロセスを本質的に3D認識させます。この革新により、DaSは単に3Dトラッキングビデオを操作することで、幅広いビデオ制御を実現できます。3Dトラッキングビデオを使用するさらなる利点は、フレームを効果的にリンクし、生成されたビデオの時間的一貫性を著しく向上させる能力です。8 H800 GPUで3日間の微調整を行い、10k本未満のビデオを使用して、DaSは、メッシュからビデオ生成、カメラ制御、モーション転送、オブジェクト操作を含むさまざまなタスクにわたる強力な制御能力を示しています。
English
Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Summary

AI-Generated Summary

PDF222January 8, 2025