Personalização de vários assuntos em aberto na geração de vídeo

Multi-subject Open-set Personalization in Video Generation

January 10, 2025
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Resumo

Métodos de personalização de vídeo nos permitem sintetizar vídeos com conceitos específicos, como pessoas, animais de estimação e lugares. No entanto, os métodos existentes frequentemente se concentram em domínios limitados, exigem otimização demorada por sujeito ou suportam apenas um único sujeito. Apresentamos o Video Alchemist - um modelo de vídeo com capacidades embutidas de personalização multi-sujeito de conjunto aberto para objetos em primeiro plano e plano de fundo, eliminando a necessidade de otimização demorada no momento do teste. Nosso modelo é construído em um novo módulo de Transformador de Difusão que funde cada imagem de referência condicional e sua respectiva sugestão de texto em nível de sujeito com camadas de atenção cruzada. O desenvolvimento de um modelo tão grande apresenta dois desafios principais: conjunto de dados e avaliação. Primeiramente, como conjuntos de dados em pares de imagens de referência e vídeos são extremamente difíceis de coletar, amostramos quadros de vídeo selecionados como imagens de referência e sintetizamos um trecho do vídeo alvo. No entanto, embora os modelos possam facilmente limpar vídeos de treinamento dados quadros de referência, eles falham em generalizar para novos contextos. Para mitigar esse problema, projetamos um novo pipeline de construção de dados automático com extensas augmentações de imagem. Em segundo lugar, avaliar a personalização de vídeo de conjunto aberto é um desafio em si. Para abordar isso, introduzimos um benchmark de personalização que se concentra na fidelidade precisa do sujeito e suporta diversos cenários de personalização. Por fim, nossos experimentos extensivos mostram que nosso método supera significativamente os métodos de personalização existentes em avaliações quantitativas e qualitativas.
English
Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist - a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF102January 13, 2025