Gerador de Vídeo: Geração de Vídeo Personalizado sem Treinamento com o Poder Inerente dos Modelos de Difusão de Vídeo

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

December 27, 2024
Autores: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI

Resumo

A geração de vídeo personalizado sem necessidade de treinamento prévio tem recebido significativa atenção devido ao seu substancial potencial de aplicação. Os métodos existentes dependem de modelos adicionais para extrair e injetar características de sujeitos de referência, assumindo que o Modelo de Difusão de Vídeo (VDM) sozinho é insuficiente para a geração de vídeo personalizado sem necessidade de treinamento prévio. No entanto, esses métodos frequentemente enfrentam dificuldades em manter a aparência consistente do sujeito devido a técnicas subótimas de extração e injeção de características. Neste artigo, revelamos que o VDM possui inerentemente a capacidade de extrair e injetar características do sujeito. Partindo de abordagens heurísticas anteriores, introduzimos um novo framework que aproveita a capacidade inerente do VDM para possibilitar a geração de vídeo personalizado sem necessidade de treinamento prévio de alta qualidade. Especificamente, para a extração de características, inserimos diretamente imagens de referência no VDM e utilizamos seu processo intrínseco de extração de características, que não apenas fornece características detalhadas, mas também se alinha significativamente com o conhecimento prévio do VDM. Para a injeção de características, desenvolvemos uma interação bidirecional inovadora entre características do sujeito e conteúdo gerado por meio de autoatenção espacial dentro do VDM, garantindo que o VDM tenha uma melhor fidelidade ao sujeito mantendo a diversidade do vídeo gerado. Experimentos tanto na geração de vídeo personalizado de humanos quanto de objetos validam a eficácia de nosso framework.
English
Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.

Summary

AI-Generated Summary

PDF132December 30, 2024