Personalizzazione multi-soggetto in un contesto aperto nella generazione di video

Abstract

I metodi di personalizzazione video ci permettono di sintetizzare video con concetti specifici come persone, animali domestici e luoghi. Tuttavia, i metodi esistenti spesso si concentrano su domini limitati, richiedono un'ottimizzazione che richiede tempo per soggetto o supportano solo un singolo soggetto. Presentiamo Video Alchemist - un modello video con capacità di personalizzazione multi-soggetto di tipo open-set integrate sia per gli oggetti in primo piano che per lo sfondo, eliminando la necessità di un'ottimizzazione che richiede tempo al momento del test. Il nostro modello si basa su un nuovo modulo Diffusion Transformer che fonde ciascuna immagine di riferimento condizionale e il relativo prompt di testo a livello di soggetto con strati di cross-attention. Lo sviluppo di un modello così grande presenta due sfide principali: dataset e valutazione. In primo luogo, poiché i dataset accoppiati di immagini di riferimento e video sono estremamente difficili da raccogliere, campioniamo frame video selezionati come immagini di riferimento e sintetizziamo un frammento del video target. Tuttavia, mentre i modelli possono facilmente denoizzare i video di addestramento dati i frame di riferimento, falliscono nel generalizzare a nuovi contesti. Per attenuare questo problema, progettiamo un nuovo flusso di lavoro automatico per la costruzione dei dati con ampie aumentazioni delle immagini. In secondo luogo, valutare la personalizzazione video di tipo open-set è di per sé una sfida. Per affrontare questo problema, introduciamo un benchmark di personalizzazione che si concentra sulla fedeltà soggettiva accurata e supporta scenari di personalizzazione diversificati. Infine, i nostri ampi esperimenti mostrano che il nostro metodo supera significativamente i metodi di personalizzazione esistenti sia nelle valutazioni quantitative che qualitative.

English

Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Personalizzazione multi-soggetto in un contesto aperto nella generazione di video

Multi-subject Open-set Personalization in Video Generation

Abstract

Support