Diffusione come shader: Diffusione video consapevole in 3D per un controllo versatile della generazione video.

Abstract

I modelli di diffusione hanno dimostrato un'impressionante performance nella generazione di video di alta qualità da prompt di testo o immagini. Tuttavia, il controllo preciso sul processo di generazione video, come la manipolazione della telecamera o l'editing del contenuto, rimane una sfida significativa. I metodi esistenti per la generazione video controllata sono tipicamente limitati a un singolo tipo di controllo, mancando della flessibilità necessaria per gestire diverse esigenze di controllo. In questo articolo, presentiamo Diffusion as Shader (DaS), un nuovo approccio che supporta molteplici compiti di controllo video all'interno di un'architettura unificata. La nostra intuizione chiave è che ottenere un controllo video versatile richiede di sfruttare segnali di controllo 3D, poiché i video sono fondamentalmente rappresentazioni 2D di contenuti dinamici 3D. A differenza dei metodi precedenti limitati a segnali di controllo 2D, DaS sfrutta video di tracciamento 3D come input di controllo, rendendo il processo di diffusione video intrinsecamente consapevole del 3D. Questa innovazione consente a DaS di ottenere una vasta gamma di controlli video semplicemente manipolando i video di tracciamento 3D. Un ulteriore vantaggio nell'utilizzo di video di tracciamento 3D è la loro capacità di collegare efficacemente i frame, migliorando significativamente la coerenza temporale dei video generati. Con soli 3 giorni di raffinamento su 8 GPU H800 utilizzando meno di 10k video, DaS dimostra forti capacità di controllo su diverse attività, inclusa la generazione di video da mesh, il controllo della telecamera, il trasferimento di movimento e la manipolazione degli oggetti.

English

Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Diffusione come shader: Diffusione video consapevole in 3D per un controllo versatile della generazione video.

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Abstract

Support