ZUCCHERO: Personalizzazione Video Orientata al Soggetto in modo Zero-Shot

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

December 13, 2024
Autori: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI

Abstract

Presentiamo SUGAR, un metodo zero-shot per la personalizzazione video guidata dal soggetto. Dato un'immagine di input, SUGAR è in grado di generare video per il soggetto contenuto nell'immagine e allineare la generazione con attributi visivi arbitrari come stile e movimento specificati da testo inserito dall'utente. A differenza dei metodi precedenti, che richiedono un aggiustamento fine al momento del test o non riescono a generare video allineati al testo, SUGAR ottiene risultati superiori senza la necessità di costi aggiuntivi al momento del test. Per abilitare la capacità zero-shot, introduciamo un pipeline scalabile per costruire un dataset sintetico che è specificamente progettato per la personalizzazione guidata dal soggetto, portando a 2,5 milioni di triplette immagine-video-testo. Inoltre, proponiamo diversi metodi per potenziare il nostro modello, inclusi design con attenzione speciale, strategie di addestramento migliorate e un algoritmo di campionamento raffinato. Sono stati condotti ampi esperimenti. Rispetto ai metodi precedenti, SUGAR ottiene risultati all'avanguardia nella conservazione dell'identità, nella dinamica dei video e nell'allineamento video-testo per la personalizzazione video guidata dal soggetto, dimostrando l'efficacia del nostro metodo proposto.
English
We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF52December 19, 2024