マジックミラー:ビデオ拡散におけるID保存ビデオ生成トランスフォーマー
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
著者: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
要旨
私たちは、シネマティックレベルの品質とダイナミックな動きを持つアイデンティティを保持したビデオを生成するためのフレームワークであるMagic Mirrorを提案します。最近のビデオ拡散モデルの進歩により、テキストからビデオへの生成において印象的な能力が示されていますが、自然な動きを生み出しつつ一貫したアイデンティティを維持することは依然として難しい課題です。従来の手法は、個人固有の微調整が必要とされるか、アイデンティティの保存と動きの多様性のバランスを図るのに苦労することがあります。私たちの手法は、Video Diffusion Transformersを基盤として構築されており、3つの主要なコンポーネントを導入しています:(1) アイデンティティと構造的特徴の両方を捉えるデュアルブランチ顔の特徴抽出器、(2) 効率的なアイデンティティ統合のためのConditioned Adaptive Normalizationを備えた軽量なクロスモーダルアダプタ、および(3) 合成アイデンティティペアとビデオデータを組み合わせた2段階のトレーニング戦略。幅広い実験により、Magic Mirrorが効果的にアイデンティティの一貫性と自然な動きをバランスよく保ち、既存の手法を複数のメトリックで上回ることが示されました。コードとモデルは以下のURLから公開されます:https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary