Personalizzazione multi-soggetto in un contesto aperto nella generazione di video
Multi-subject Open-set Personalization in Video Generation
January 10, 2025
Autori: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Abstract
I metodi di personalizzazione video ci permettono di sintetizzare video con concetti specifici come persone, animali domestici e luoghi. Tuttavia, i metodi esistenti spesso si concentrano su domini limitati, richiedono un'ottimizzazione che richiede tempo per soggetto o supportano solo un singolo soggetto. Presentiamo Video Alchemist - un modello video con capacità di personalizzazione multi-soggetto di tipo open-set integrate sia per gli oggetti in primo piano che per lo sfondo, eliminando la necessità di un'ottimizzazione che richiede tempo al momento del test. Il nostro modello si basa su un nuovo modulo Diffusion Transformer che fonde ciascuna immagine di riferimento condizionale e il relativo prompt di testo a livello di soggetto con strati di cross-attention. Lo sviluppo di un modello così grande presenta due sfide principali: dataset e valutazione. In primo luogo, poiché i dataset accoppiati di immagini di riferimento e video sono estremamente difficili da raccogliere, campioniamo frame video selezionati come immagini di riferimento e sintetizziamo un frammento del video target. Tuttavia, mentre i modelli possono facilmente denoizzare i video di addestramento dati i frame di riferimento, falliscono nel generalizzare a nuovi contesti. Per attenuare questo problema, progettiamo un nuovo flusso di lavoro automatico per la costruzione dei dati con ampie aumentazioni delle immagini. In secondo luogo, valutare la personalizzazione video di tipo open-set è di per sé una sfida. Per affrontare questo problema, introduciamo un benchmark di personalizzazione che si concentra sulla fedeltà soggettiva accurata e supporta scenari di personalizzazione diversificati. Infine, i nostri ampi esperimenti mostrano che il nostro metodo supera significativamente i metodi di personalizzazione esistenti sia nelle valutazioni quantitative che qualitative.
English
Video personalization methods allow us to synthesize videos with specific
concepts such as people, pets, and places. However, existing methods often
focus on limited domains, require time-consuming optimization per subject, or
support only a single subject. We present Video Alchemist - a video model
with built-in multi-subject, open-set personalization capabilities for both
foreground objects and background, eliminating the need for time-consuming
test-time optimization. Our model is built on a new Diffusion Transformer
module that fuses each conditional reference image and its corresponding
subject-level text prompt with cross-attention layers. Developing such a large
model presents two main challenges: dataset and evaluation. First, as paired
datasets of reference images and videos are extremely hard to collect, we
sample selected video frames as reference images and synthesize a clip of the
target video. However, while models can easily denoise training videos given
reference frames, they fail to generalize to new contexts. To mitigate this
issue, we design a new automatic data construction pipeline with extensive
image augmentations. Second, evaluating open-set video personalization is a
challenge in itself. To address this, we introduce a personalization benchmark
that focuses on accurate subject fidelity and supports diverse personalization
scenarios. Finally, our extensive experiments show that our method
significantly outperforms existing personalization methods in both quantitative
and qualitative evaluations.Summary
AI-Generated Summary