ZUCCHERO: Personalizzazione Video Orientata al Soggetto in modo Zero-Shot
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
December 13, 2024
Autori: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI
Abstract
Presentiamo SUGAR, un metodo zero-shot per la personalizzazione video guidata dal soggetto.
Dato un'immagine di input, SUGAR è in grado di generare video per il soggetto
contenuto nell'immagine e allineare la generazione con attributi visivi arbitrari
come stile e movimento specificati da testo inserito dall'utente. A differenza
dei metodi precedenti, che richiedono un aggiustamento fine al momento del test o non riescono a generare
video allineati al testo, SUGAR ottiene risultati superiori senza la necessità di costi aggiuntivi al momento del test. Per abilitare la capacità zero-shot, introduciamo un
pipeline scalabile per costruire un dataset sintetico che è specificamente progettato per
la personalizzazione guidata dal soggetto, portando a 2,5 milioni di triplette immagine-video-testo. Inoltre, proponiamo diversi metodi per potenziare il nostro modello,
inclusi design con attenzione speciale, strategie di addestramento migliorate e un
algoritmo di campionamento raffinato. Sono stati condotti ampi esperimenti. Rispetto ai
metodi precedenti, SUGAR ottiene risultati all'avanguardia nella conservazione dell'identità,
nella dinamica dei video e nell'allineamento video-testo per la personalizzazione video guidata dal soggetto,
dimostrando l'efficacia del nostro metodo proposto.
English
We present SUGAR, a zero-shot method for subject-driven video customization.
Given an input image, SUGAR is capable of generating videos for the subject
contained in the image and aligning the generation with arbitrary visual
attributes such as style and motion specified by user-input text. Unlike
previous methods, which require test-time fine-tuning or fail to generate
text-aligned videos, SUGAR achieves superior results without the need for extra
cost at test-time. To enable zero-shot capability, we introduce a scalable
pipeline to construct synthetic dataset which is specifically designed for
subject-driven customization, leading to 2.5 millions of image-video-text
triplets. Additionally, we propose several methods to enhance our model,
including special attention designs, improved training strategies, and a
refined sampling algorithm. Extensive experiments are conducted. Compared to
previous methods, SUGAR achieves state-of-the-art results in identity
preservation, video dynamics, and video-text alignment for subject-driven video
customization, demonstrating the effectiveness of our proposed method.Summary
AI-Generated Summary