ConceptMaster: 테스트 시간 조정 없이 확산 트랜스포머 모델에서의 다중 개념 비디오 사용자 정의
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
January 8, 2025
저자: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
초록
비디오 생성에 대한 텍스트는 확산 모델을 통해 현저한 발전을 이루었습니다. 그러나 Multi-Concept Video Customization (MCVC)은 여전히 중요한 도전 과제로 남아 있습니다. 이 작업에서 두 가지 주요 도전 과제를 식별합니다: 1) 신원 분리 문제, 여러 개념을 동시에 처리할 때 기존 사용자 정의 방법을 직접 채택하면 불가피하게 속성을 혼합하는 문제, 그리고 2) 고품질 비디오-개체 쌍의 부족, 이는 다양한 개념을 잘 표현하고 분리하는 이러한 모델을 훈련하는 데 중요합니다. 이러한 도전 과제를 해결하기 위해 우리는 ConceptMaster를 소개합니다. 이는 개인화된 비디오에서 신원 분리의 중요한 문제를 효과적으로 다루면서 사용자 정의된 비디오에서 개념 충실도를 유지하는 혁신적인 프레임워크입니다. 구체적으로, 우리는 독립적인 방식으로 확산 모델에 주입되는 분리된 다중 개념 임베딩을 학습하는 새로운 전략을 소개합니다. 이는 고품질 비디오를 효과적으로 보장하며, 비슷한 시각적 개념에 대해서도 여러 신원을 가진 비디오의 품질을 향상시킵니다. 고품질 MCVC 데이터의 부족을 극복하기 위해 우리는 다양한 개념을 통해 정확한 다중 개념 비디오-개체 데이터를 체계적으로 수집 가능하게 하는 데이터 구축 파이프라인을 신중히 구축합니다. 우리의 모델의 효과를 검증하기 위해 포괄적인 벤치마크가 설계되었습니다. 이는 개념 충실도, 신원 분리 능력, 그리고 여섯 가지 다른 개념 조합 시나리오에 걸쳐 비디오 생성 품질을 검증합니다. 광범위한 실험 결과는 우리의 ConceptMaster가 이 작업에 대한 이전 접근 방식을 크게 능가함을 보여주며, 다중 개념을 횡단하여 개인화되고 의미론적으로 정확한 비디오를 생성하는 길을 열어놓습니다.
English
Text-to-video generation has made remarkable advancements through diffusion
models. However, Multi-Concept Video Customization (MCVC) remains a significant
challenge. We identify two key challenges in this task: 1) the identity
decoupling problem, where directly adopting existing customization methods
inevitably mix attributes when handling multiple concepts simultaneously, and
2) the scarcity of high-quality video-entity pairs, which is crucial for
training such a model that represents and decouples various concepts well. To
address these challenges, we introduce ConceptMaster, an innovative framework
that effectively tackles the critical issues of identity decoupling while
maintaining concept fidelity in customized videos. Specifically, we introduce a
novel strategy of learning decoupled multi-concept embeddings that are injected
into the diffusion models in a standalone manner, which effectively guarantees
the quality of customized videos with multiple identities, even for highly
similar visual concepts. To further overcome the scarcity of high-quality MCVC
data, we carefully establish a data construction pipeline, which enables
systematic collection of precise multi-concept video-entity data across diverse
concepts. A comprehensive benchmark is designed to validate the effectiveness
of our model from three critical dimensions: concept fidelity, identity
decoupling ability, and video generation quality across six different concept
composition scenarios. Extensive experiments demonstrate that our ConceptMaster
significantly outperforms previous approaches for this task, paving the way for
generating personalized and semantically accurate videos across multiple
concepts.Summary
AI-Generated Summary