Açúcar: Personalização de Vídeo Orientada pelo Assunto de Forma Sem Necessidade de Treinamento
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
December 13, 2024
Autores: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI
Resumo
Apresentamos SUGAR, um método de zero-shot para personalização de vídeo orientada por assunto.
Dada uma imagem de entrada, o SUGAR é capaz de gerar vídeos para o assunto contido na imagem e alinhar a geração com atributos visuais arbitrários, como estilo e movimento especificados por texto de entrada do usuário. Ao contrário de métodos anteriores, que exigem ajustes finos no momento do teste ou falham em gerar vídeos alinhados com texto, o SUGAR alcança resultados superiores sem a necessidade de custos extras no momento do teste. Para habilitar a capacidade de zero-shot, introduzimos um pipeline escalável para construir um conjunto de dados sintéticos especificamente projetado para personalização orientada por assunto, resultando em 2,5 milhões de triplas imagem-vídeo-texto. Além disso, propomos vários métodos para aprimorar nosso modelo, incluindo designs de atenção especial, estratégias de treinamento aprimoradas e um algoritmo de amostragem refinado. Extensos experimentos são realizados. Comparado a métodos anteriores, o SUGAR alcança resultados de ponta em preservação de identidade, dinâmica de vídeo e alinhamento vídeo-texto para personalização de vídeo orientada por assunto, demonstrando a eficácia de nosso método proposto.
English
We present SUGAR, a zero-shot method for subject-driven video customization.
Given an input image, SUGAR is capable of generating videos for the subject
contained in the image and aligning the generation with arbitrary visual
attributes such as style and motion specified by user-input text. Unlike
previous methods, which require test-time fine-tuning or fail to generate
text-aligned videos, SUGAR achieves superior results without the need for extra
cost at test-time. To enable zero-shot capability, we introduce a scalable
pipeline to construct synthetic dataset which is specifically designed for
subject-driven customization, leading to 2.5 millions of image-video-text
triplets. Additionally, we propose several methods to enhance our model,
including special attention designs, improved training strategies, and a
refined sampling algorithm. Extensive experiments are conducted. Compared to
previous methods, SUGAR achieves state-of-the-art results in identity
preservation, video dynamics, and video-text alignment for subject-driven video
customization, demonstrating the effectiveness of our proposed method.Summary
AI-Generated Summary