MagicFace: Edição de Expressões Faciais de Alta Fidelidade com Controle de Unidades de Ação

MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

January 4, 2025
Autores: Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao
cs.AI

Resumo

Abordamos o problema da edição de expressões faciais controlando a variação relativa da unidade de ação facial (AU) da mesma pessoa. Isso nos permite editar a expressão específica dessa pessoa de maneira refinada, contínua e interpretável, preservando sua identidade, pose, plano de fundo e atributos faciais detalhados. Fundamental para nosso modelo, que denominamos MagicFace, é um modelo de difusão condicionado a variações de AU e um codificador de ID para preservar detalhes faciais de alta consistência. Especificamente, para preservar os detalhes faciais com a identidade de entrada, aproveitamos o poder de modelos pré-treinados de Difusão Estável e projetamos um codificador de ID para mesclar características de aparência por meio de autoatenção. Para manter a consistência de plano de fundo e pose, introduzimos um Controlador de Atributos eficiente, informando explicitamente ao modelo o plano de fundo e a pose atuais do alvo. Ao injetar variações de AU em um UNet de remoção de ruído, nosso modelo pode animar identidades arbitrárias com várias combinações de AU, produzindo resultados superiores na edição de expressões de alta fidelidade em comparação com outros trabalhos de edição de expressão facial. O código está disponível publicamente em https://github.com/weimengting/MagicFace.
English
We address the problem of facial expression editing by controling the relative variation of facial action-unit (AU) from the same person. This enables us to edit this specific person's expression in a fine-grained, continuous and interpretable manner, while preserving their identity, pose, background and detailed facial attributes. Key to our model, which we dub MagicFace, is a diffusion model conditioned on AU variations and an ID encoder to preserve facial details of high consistency. Specifically, to preserve the facial details with the input identity, we leverage the power of pretrained Stable-Diffusion models and design an ID encoder to merge appearance features through self-attention. To keep background and pose consistency, we introduce an efficient Attribute Controller by explicitly informing the model of current background and pose of the target. By injecting AU variations into a denoising UNet, our model can animate arbitrary identities with various AU combinations, yielding superior results in high-fidelity expression editing compared to other facial expression editing works. Code is publicly available at https://github.com/weimengting/MagicFace.

Summary

AI-Generated Summary

PDF52January 8, 2025