Gerador de Vídeo: Geração de Vídeo Personalizado sem Treinamento com o Poder Inerente dos Modelos de Difusão de Vídeo
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Autores: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Resumo
A geração de vídeo personalizado sem necessidade de treinamento prévio tem recebido significativa atenção devido ao seu substancial potencial de aplicação. Os métodos existentes dependem de modelos adicionais para extrair e injetar características de sujeitos de referência, assumindo que o Modelo de Difusão de Vídeo (VDM) sozinho é insuficiente para a geração de vídeo personalizado sem necessidade de treinamento prévio. No entanto, esses métodos frequentemente enfrentam dificuldades em manter a aparência consistente do sujeito devido a técnicas subótimas de extração e injeção de características. Neste artigo, revelamos que o VDM possui inerentemente a capacidade de extrair e injetar características do sujeito. Partindo de abordagens heurísticas anteriores, introduzimos um novo framework que aproveita a capacidade inerente do VDM para possibilitar a geração de vídeo personalizado sem necessidade de treinamento prévio de alta qualidade. Especificamente, para a extração de características, inserimos diretamente imagens de referência no VDM e utilizamos seu processo intrínseco de extração de características, que não apenas fornece características detalhadas, mas também se alinha significativamente com o conhecimento prévio do VDM. Para a injeção de características, desenvolvemos uma interação bidirecional inovadora entre características do sujeito e conteúdo gerado por meio de autoatenção espacial dentro do VDM, garantindo que o VDM tenha uma melhor fidelidade ao sujeito mantendo a diversidade do vídeo gerado. Experimentos tanto na geração de vídeo personalizado de humanos quanto de objetos validam a eficácia de nosso framework.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.Summary
AI-Generated Summary