DreamActor-M1: Animazione di immagini umane olistica, espressiva e robusta con guida ibrida
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
April 2, 2025
Autori: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu
cs.AI
Abstract
Sebbene i recenti metodi di animazione umana basati su immagini raggiungano una sintesi realistica del movimento del corpo e del viso, permangono lacune critiche nella controllabilità olistica fine, nell'adattabilità multi-scala e nella coerenza temporale a lungo termine, il che porta a una minore espressività e robustezza. Proponiamo un framework basato su un diffusion transformer (DiT), DreamActor-M1, con guida ibrida per superare queste limitazioni. Per la guida del movimento, i nostri segnali di controllo ibridi che integrano rappresentazioni facciali implicite, sfere 3D della testa e scheletri 3D del corpo consentono un controllo robusto delle espressioni facciali e dei movimenti del corpo, producendo al contempo animazioni espressive e che preservano l'identità. Per l'adattamento alla scala, al fine di gestire varie pose del corpo e scale dell'immagine che vanno dai ritratti alle viste a figura intera, utilizziamo una strategia di addestramento progressivo con dati a risoluzioni e scale variabili. Per la guida dell'aspetto, integriamo i modelli di movimento dai fotogrammi sequenziali con riferimenti visivi complementari, garantendo una coerenza temporale a lungo termine per le regioni non visibili durante movimenti complessi. Gli esperimenti dimostrano che il nostro metodo supera gli approcci più avanzati, fornendo risultati espressivi per la generazione di ritratti, busti e figure intere con una robusta coerenza a lungo termine. Pagina del progetto: https://grisoon.github.io/DreamActor-M1/.
English
While recent image-based human animation methods achieve realistic body and
facial motion synthesis, critical gaps remain in fine-grained holistic
controllability, multi-scale adaptability, and long-term temporal coherence,
which leads to their lower expressiveness and robustness. We propose a
diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid
guidance to overcome these limitations. For motion guidance, our hybrid control
signals that integrate implicit facial representations, 3D head spheres, and 3D
body skeletons achieve robust control of facial expressions and body movements,
while producing expressive and identity-preserving animations. For scale
adaptation, to handle various body poses and image scales ranging from
portraits to full-body views, we employ a progressive training strategy using
data with varying resolutions and scales. For appearance guidance, we integrate
motion patterns from sequential frames with complementary visual references,
ensuring long-term temporal coherence for unseen regions during complex
movements. Experiments demonstrate that our method outperforms the
state-of-the-art works, delivering expressive results for portraits,
upper-body, and full-body generation with robust long-term consistency. Project
Page: https://grisoon.github.io/DreamActor-M1/.Summary
AI-Generated Summary