VideoMaker: Generazione personalizzata di video senza training con la forza intrinseca dei modelli di diffusione video.

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

December 27, 2024
Autori: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI

Abstract

La generazione personalizzata di video senza utilizzo di dati ha attirato notevole attenzione per il suo significativo potenziale applicativo. I metodi esistenti si basano su modelli aggiuntivi per estrarre e iniettare le caratteristiche del soggetto di riferimento, assumendo che il Modello di Diffusione Video (VDM) da solo non sia sufficiente per la generazione personalizzata di video senza dati. Tuttavia, questi metodi spesso faticano a mantenere un aspetto coerente del soggetto a causa di tecniche di estrazione e iniezione delle caratteristiche non ottimali. In questo articolo, riveliamo che il VDM possiede intrinsecamente la capacità di estrarre e iniettare le caratteristiche del soggetto. Abbandonando gli approcci euristici precedenti, introduciamo un nuovo framework che sfrutta la capacità intrinseca del VDM per consentire la generazione di video personalizzati di alta qualità senza dati. In particolare, per l'estrazione delle caratteristiche, inseriamo direttamente le immagini di riferimento nel VDM e utilizziamo il suo processo intrinseco di estrazione delle caratteristiche, che non solo fornisce caratteristiche dettagliate ma si allinea significativamente con la conoscenza pre-addestrata del VDM. Per l'iniezione delle caratteristiche, progettiamo una nuova interazione bidirezionale tra le caratteristiche del soggetto e i contenuti generati attraverso l'autorappresentazione spaziale all'interno del VDM, garantendo che il VDM abbia una migliore fedeltà al soggetto pur mantenendo la diversità del video generato. Gli esperimenti sulla generazione di video umani e di oggetti personalizzati convalidano l'efficacia del nostro framework.
English
Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.

Summary

AI-Generated Summary

PDF132December 30, 2024