DreamActor-M1: Animazione di immagini umane olistica, espressiva e robusta con guida ibrida

Abstract

Sebbene i recenti metodi di animazione umana basati su immagini raggiungano una sintesi realistica del movimento del corpo e del viso, permangono lacune critiche nella controllabilità olistica fine, nell'adattabilità multi-scala e nella coerenza temporale a lungo termine, il che porta a una minore espressività e robustezza. Proponiamo un framework basato su un diffusion transformer (DiT), DreamActor-M1, con guida ibrida per superare queste limitazioni. Per la guida del movimento, i nostri segnali di controllo ibridi che integrano rappresentazioni facciali implicite, sfere 3D della testa e scheletri 3D del corpo consentono un controllo robusto delle espressioni facciali e dei movimenti del corpo, producendo al contempo animazioni espressive e che preservano l'identità. Per l'adattamento alla scala, al fine di gestire varie pose del corpo e scale dell'immagine che vanno dai ritratti alle viste a figura intera, utilizziamo una strategia di addestramento progressivo con dati a risoluzioni e scale variabili. Per la guida dell'aspetto, integriamo i modelli di movimento dai fotogrammi sequenziali con riferimenti visivi complementari, garantendo una coerenza temporale a lungo termine per le regioni non visibili durante movimenti complessi. Gli esperimenti dimostrano che il nostro metodo supera gli approcci più avanzati, fornendo risultati espressivi per la generazione di ritratti, busti e figure intere con una robusta coerenza a lungo termine. Pagina del progetto: https://grisoon.github.io/DreamActor-M1/.

English

While recent image-based human animation methods achieve realistic body and facial motion synthesis, critical gaps remain in fine-grained holistic controllability, multi-scale adaptability, and long-term temporal coherence, which leads to their lower expressiveness and robustness. We propose a diffusion transformer (DiT) based framework, DreamActor-M1, with hybrid guidance to overcome these limitations. For motion guidance, our hybrid control signals that integrate implicit facial representations, 3D head spheres, and 3D body skeletons achieve robust control of facial expressions and body movements, while producing expressive and identity-preserving animations. For scale adaptation, to handle various body poses and image scales ranging from portraits to full-body views, we employ a progressive training strategy using data with varying resolutions and scales. For appearance guidance, we integrate motion patterns from sequential frames with complementary visual references, ensuring long-term temporal coherence for unseen regions during complex movements. Experiments demonstrate that our method outperforms the state-of-the-art works, delivering expressive results for portraits, upper-body, and full-body generation with robust long-term consistency. Project Page: https://grisoon.github.io/DreamActor-M1/.

DreamActor-M1: Animazione di immagini umane olistica, espressiva e robusta con guida ibrida

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Abstract

Summary

Support

Support