MagicFace: アクションユニット制御による高精細な顔表情編集
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control
January 4, 2025
著者: Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao
cs.AI
要旨
私たちは、同じ人物の顔の表情単位(AU)の相対的な変動を制御することで、顔の表情編集の問題に取り組んでいます。これにより、その特定の人物の表情を細かく、連続的かつ解釈可能な方法で編集することが可能となり、その人物のアイデンティティ、ポーズ、背景、詳細な顔の属性を保持しながら行います。私たちがMagicFaceと名付けたモデルの鍵は、AUの変動に依存する拡散モデルと、顔の詳細を高い一貫性で保持するIDエンコーダです。具体的には、入力アイデンティティとともに顔の詳細を保持するために、事前学習されたStable-Diffusionモデルの力を活用し、外観特徴を自己注意を介して統合するIDエンコーダを設計しています。背景とポーズの一貫性を保つために、対象の現在の背景とポーズをモデルに明示的に通知する効率的な属性コントローラを導入しています。AUの変動をノイズ除去UNetに注入することで、我々のモデルはさまざまなAUの組み合わせを持つ任意のアイデンティティをアニメーション化し、他の顔の表情編集作業と比較して高品質な表情編集の優れた結果を生み出します。コードはhttps://github.com/weimengting/MagicFace で公開されています。
English
We address the problem of facial expression editing by controling the
relative variation of facial action-unit (AU) from the same person. This
enables us to edit this specific person's expression in a fine-grained,
continuous and interpretable manner, while preserving their identity, pose,
background and detailed facial attributes. Key to our model, which we dub
MagicFace, is a diffusion model conditioned on AU variations and an ID encoder
to preserve facial details of high consistency. Specifically, to preserve the
facial details with the input identity, we leverage the power of pretrained
Stable-Diffusion models and design an ID encoder to merge appearance features
through self-attention. To keep background and pose consistency, we introduce
an efficient Attribute Controller by explicitly informing the model of current
background and pose of the target. By injecting AU variations into a denoising
UNet, our model can animate arbitrary identities with various AU combinations,
yielding superior results in high-fidelity expression editing compared to other
facial expression editing works. Code is publicly available at
https://github.com/weimengting/MagicFace.Summary
AI-Generated Summary