ConceptMaster: ディフュージョン・トランスフォーマーモデル上のマルチコンセプトビデオカスタマイズにおけるテスト時チューニングの不要化
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
January 8, 2025
著者: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
要旨
テキストからビデオの生成は、拡散モデルを通じて著しい進歩を遂げています。ただし、マルチコンセプトビデオカスタマイズ(MCVC)は依然として重要な課題です。この課題には2つの主要な挑戦があります:1)アイデンティティの切り離し問題。既存のカスタマイズ手法を直接採用すると、複数のコンセプトを同時に扱う際に属性が混在することが避けられません。2)高品質なビデオ-エンティティのペアの不足。これは、様々なコンセプトを適切に表現し分離するモデルをトレーニングする際に重要です。これらの課題に対処するために、私たちはConceptMasterを導入しました。これは、アイデンティティの切り離しの重要な問題に効果的に取り組みながら、カスタマイズされたビデオでコンセプトの忠実度を維持する革新的なフレームワークです。具体的には、独立した方法で拡散モデルに注入される切り離されたマルチコンセプト埋め込みを学習する新しい戦略を導入しました。これにより、高度に類似した視覚コンセプトに対しても、複数のアイデンティティを持つカスタマイズされたビデオの品質を効果的に保証します。さらに、高品質なMCVCデータの不足を克服するために、様々なコンセプトにわたる正確なマルチコンセプトビデオ-エンティティデータの体系的な収集を可能にするデータ構築パイプラインを慎重に構築しました。私たちのモデルの効果を検証するために包括的なベンチマークが設計され、コンセプトの忠実度、アイデンティティの切り離し能力、および6つの異なるコンセプト構成シナリオにわたるビデオ生成品質の3つの重要な側面から、当社のモデルの有効性を検証します。広範な実験により、当社のConceptMasterがこの課題に対する以前のアプローチを大幅に上回ることが示され、複数のコンセプトにわたるパーソナライズされた意味のあるビデオの生成への道を開いています。
English
Text-to-video generation has made remarkable advancements through diffusion
models. However, Multi-Concept Video Customization (MCVC) remains a significant
challenge. We identify two key challenges in this task: 1) the identity
decoupling problem, where directly adopting existing customization methods
inevitably mix attributes when handling multiple concepts simultaneously, and
2) the scarcity of high-quality video-entity pairs, which is crucial for
training such a model that represents and decouples various concepts well. To
address these challenges, we introduce ConceptMaster, an innovative framework
that effectively tackles the critical issues of identity decoupling while
maintaining concept fidelity in customized videos. Specifically, we introduce a
novel strategy of learning decoupled multi-concept embeddings that are injected
into the diffusion models in a standalone manner, which effectively guarantees
the quality of customized videos with multiple identities, even for highly
similar visual concepts. To further overcome the scarcity of high-quality MCVC
data, we carefully establish a data construction pipeline, which enables
systematic collection of precise multi-concept video-entity data across diverse
concepts. A comprehensive benchmark is designed to validate the effectiveness
of our model from three critical dimensions: concept fidelity, identity
decoupling ability, and video generation quality across six different concept
composition scenarios. Extensive experiments demonstrate that our ConceptMaster
significantly outperforms previous approaches for this task, paving the way for
generating personalized and semantically accurate videos across multiple
concepts.Summary
AI-Generated Summary