ConceptMaster: Personalização de Vídeo Multi-Conceito em Modelos de Transformador de Difusão sem Ajuste no Momento do Teste
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
January 8, 2025
Autores: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
Resumo
A geração de vídeo a partir de texto tem feito avanços notáveis por meio de modelos de difusão. No entanto, a Customização de Vídeo Multi-Conceito (MCVC) continua sendo um desafio significativo. Identificamos dois desafios-chave nesta tarefa: 1) o problema de desacoplamento de identidade, onde a adoção direta de métodos de customização existentes inevitavelmente mistura atributos ao lidar com múltiplos conceitos simultaneamente, e 2) a escassez de pares vídeo-entidade de alta qualidade, o que é crucial para treinar um modelo que represente e desacople bem vários conceitos. Para enfrentar esses desafios, introduzimos o ConceptMaster, um framework inovador que aborda efetivamente as questões críticas de desacoplamento de identidade, mantendo a fidelidade conceitual em vídeos personalizados. Especificamente, introduzimos uma estratégia inovadora de aprendizado de embeddings multi-conceito desacoplados que são injetados nos modelos de difusão de forma independente, garantindo efetivamente a qualidade de vídeos personalizados com múltiplas identidades, mesmo para conceitos visuais altamente similares. Para superar ainda mais a escassez de dados MCVC de alta qualidade, estabelecemos cuidadosamente um pipeline de construção de dados, que possibilita a coleta sistemática de dados precisos de vídeo-entidade multi-conceito em diversos conceitos. Um benchmark abrangente é projetado para validar a eficácia de nosso modelo a partir de três dimensões críticas: fidelidade conceitual, capacidade de desacoplamento de identidade e qualidade de geração de vídeo em seis cenários de composição conceitual diferentes. Experimentos extensivos demonstram que nosso ConceptMaster supera significativamente abordagens anteriores para esta tarefa, abrindo caminho para a geração de vídeos personalizados e semanticamente precisos em múltiplos conceitos.
English
Text-to-video generation has made remarkable advancements through diffusion
models. However, Multi-Concept Video Customization (MCVC) remains a significant
challenge. We identify two key challenges in this task: 1) the identity
decoupling problem, where directly adopting existing customization methods
inevitably mix attributes when handling multiple concepts simultaneously, and
2) the scarcity of high-quality video-entity pairs, which is crucial for
training such a model that represents and decouples various concepts well. To
address these challenges, we introduce ConceptMaster, an innovative framework
that effectively tackles the critical issues of identity decoupling while
maintaining concept fidelity in customized videos. Specifically, we introduce a
novel strategy of learning decoupled multi-concept embeddings that are injected
into the diffusion models in a standalone manner, which effectively guarantees
the quality of customized videos with multiple identities, even for highly
similar visual concepts. To further overcome the scarcity of high-quality MCVC
data, we carefully establish a data construction pipeline, which enables
systematic collection of precise multi-concept video-entity data across diverse
concepts. A comprehensive benchmark is designed to validate the effectiveness
of our model from three critical dimensions: concept fidelity, identity
decoupling ability, and video generation quality across six different concept
composition scenarios. Extensive experiments demonstrate that our ConceptMaster
significantly outperforms previous approaches for this task, paving the way for
generating personalized and semantically accurate videos across multiple
concepts.Summary
AI-Generated Summary