VideoMaker: Generazione personalizzata di video senza training con la forza intrinseca dei modelli di diffusione video.
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Autori: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Abstract
La generazione personalizzata di video senza utilizzo di dati ha attirato notevole attenzione per il suo significativo potenziale applicativo. I metodi esistenti si basano su modelli aggiuntivi per estrarre e iniettare le caratteristiche del soggetto di riferimento, assumendo che il Modello di Diffusione Video (VDM) da solo non sia sufficiente per la generazione personalizzata di video senza dati. Tuttavia, questi metodi spesso faticano a mantenere un aspetto coerente del soggetto a causa di tecniche di estrazione e iniezione delle caratteristiche non ottimali. In questo articolo, riveliamo che il VDM possiede intrinsecamente la capacità di estrarre e iniettare le caratteristiche del soggetto. Abbandonando gli approcci euristici precedenti, introduciamo un nuovo framework che sfrutta la capacità intrinseca del VDM per consentire la generazione di video personalizzati di alta qualità senza dati. In particolare, per l'estrazione delle caratteristiche, inseriamo direttamente le immagini di riferimento nel VDM e utilizziamo il suo processo intrinseco di estrazione delle caratteristiche, che non solo fornisce caratteristiche dettagliate ma si allinea significativamente con la conoscenza pre-addestrata del VDM. Per l'iniezione delle caratteristiche, progettiamo una nuova interazione bidirezionale tra le caratteristiche del soggetto e i contenuti generati attraverso l'autorappresentazione spaziale all'interno del VDM, garantendo che il VDM abbia una migliore fedeltà al soggetto pur mantenendo la diversità del video generato. Gli esperimenti sulla generazione di video umani e di oggetti personalizzati convalidano l'efficacia del nostro framework.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.Summary
AI-Generated Summary