材料:カスタム写真のブレンディングとビデオ拡散トランスフォーマー
Ingredients: Blending Custom Photos with Video Diffusion Transformers
January 3, 2025
著者: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan
cs.AI
要旨
この論文では、複数の特定のアイデンティティ(ID)写真を取り入れたビデオ作成をカスタマイズするための強力なフレームワークが提示されます。このフレームワークは、ビデオ拡散TransformerによってIngredientsと呼ばれる特定の要素を組み込むことで構成されています。一般的に、当社の手法は、次の3つの主要モジュールで構成されています:(i) 各人のIDごとにグローバルおよびローカルの視点から多目的かつ正確な顔の特徴を捉える顔抽出器;(ii) 顔の埋め込みをビデオ拡散Transformer内の画像クエリのコンテキスト空間にマッピングするマルチスケールプロジェクタ;(iii) 複数のID埋め込みを動的に組み合わせ、対応する空間-時間領域に割り当てるIDルータ。入念に選定されたテキスト-ビデオデータセットとマルチステージトレーニングプロトコルを活用することで、Ingredientsはカスタム写真をダイナミックで個人的なビデオコンテンツに変換する際に優れたパフォーマンスを発揮します。定性的評価は、提案された手法の利点を強調し、既存の手法と比較してTransformerベースのアーキテクチャにおけるより効果的な生成ビデオ制御ツールへの重要な進展と位置付けています。データ、コード、およびモデルの重みは以下で公開されています:https://github.com/feizc/Ingredients.
English
This paper presents a powerful framework to customize video creations by
incorporating multiple specific identity (ID) photos, with video diffusion
Transformers, referred to as Ingredients. Generally, our method
consists of three primary modules: (i) a facial extractor that
captures versatile and precise facial features for each human ID from both
global and local perspectives; (ii) a multi-scale projector that maps
face embeddings into the contextual space of image query in video diffusion
transformers; (iii) an ID router that dynamically combines and
allocates multiple ID embedding to the corresponding space-time regions.
Leveraging a meticulously curated text-video dataset and a multi-stage training
protocol, Ingredients demonstrates superior performance in turning
custom photos into dynamic and personalized video content. Qualitative
evaluations highlight the advantages of proposed method, positioning it as a
significant advancement toward more effective generative video control tools in
Transformer-based architecture, compared to existing methods. The data, code,
and model weights are publicly available at:
https://github.com/feizc/Ingredients.Summary
AI-Generated Summary