Açúcar: Personalização de Vídeo Orientada pelo Assunto de Forma Sem Necessidade de Treinamento

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

December 13, 2024
Autores: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI

Resumo

Apresentamos SUGAR, um método de zero-shot para personalização de vídeo orientada por assunto. Dada uma imagem de entrada, o SUGAR é capaz de gerar vídeos para o assunto contido na imagem e alinhar a geração com atributos visuais arbitrários, como estilo e movimento especificados por texto de entrada do usuário. Ao contrário de métodos anteriores, que exigem ajustes finos no momento do teste ou falham em gerar vídeos alinhados com texto, o SUGAR alcança resultados superiores sem a necessidade de custos extras no momento do teste. Para habilitar a capacidade de zero-shot, introduzimos um pipeline escalável para construir um conjunto de dados sintéticos especificamente projetado para personalização orientada por assunto, resultando em 2,5 milhões de triplas imagem-vídeo-texto. Além disso, propomos vários métodos para aprimorar nosso modelo, incluindo designs de atenção especial, estratégias de treinamento aprimoradas e um algoritmo de amostragem refinado. Extensos experimentos são realizados. Comparado a métodos anteriores, o SUGAR alcança resultados de ponta em preservação de identidade, dinâmica de vídeo e alinhamento vídeo-texto para personalização de vídeo orientada por assunto, demonstrando a eficácia de nosso método proposto.
English
We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF52December 19, 2024