Difusão como Shader: Difusão de Vídeo Consciente do 3D para Controle Versátil de Geração de Vídeo

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

January 7, 2025
Autores: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI

Resumo

Os modelos de difusão têm demonstrado um desempenho impressionante na geração de vídeos de alta qualidade a partir de prompts de texto ou imagens. No entanto, o controle preciso sobre o processo de geração de vídeo, como manipulação de câmera ou edição de conteúdo, continua sendo um desafio significativo. Métodos existentes para geração de vídeo controlada são tipicamente limitados a um único tipo de controle, faltando a flexibilidade para lidar com diversas demandas de controle. Neste artigo, apresentamos o Diffusion as Shader (DaS), uma abordagem inovadora que suporta múltiplas tarefas de controle de vídeo dentro de uma arquitetura unificada. Nosso insight chave é que alcançar um controle versátil de vídeo exige alavancar sinais de controle 3D, uma vez que vídeos são fundamentalmente representações 2D de conteúdo 3D dinâmico. Ao contrário de métodos anteriores limitados a sinais de controle 2D, o DaS utiliza vídeos de rastreamento 3D como entradas de controle, tornando o processo de difusão de vídeo inerentemente consciente do 3D. Essa inovação permite ao DaS alcançar uma ampla gama de controles de vídeo simplesmente manipulando os vídeos de rastreamento 3D. Uma vantagem adicional do uso de vídeos de rastreamento 3D é sua capacidade de vincular efetivamente frames, melhorando significativamente a consistência temporal dos vídeos gerados. Com apenas 3 dias de ajuste fino em 8 GPUs H800 usando menos de 10 mil vídeos, o DaS demonstra fortes capacidades de controle em diversas tarefas, incluindo geração de malha para vídeo, controle de câmera, transferência de movimento e manipulação de objetos.
English
Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Summary

AI-Generated Summary

PDF222January 8, 2025