ChatAnyone: Generazione Stilizzata di Video Ritratti in Tempo Reale con Modello di Diffusione del Movimento Gerarchico

Abstract

I ritratti video-chat interattivi in tempo reale sono stati sempre più riconosciuti come la tendenza futura, in particolare grazie ai notevoli progressi compiuti nelle tecnologie di chat testuali e vocali. Tuttavia, i metodi esistenti si concentrano principalmente sulla generazione in tempo reale dei movimenti della testa, ma faticano a produrre movimenti del corpo sincronizzati che corrispondano a queste azioni della testa. Inoltre, ottenere un controllo fine sullo stile di parlato e sulle sfumature delle espressioni facciali rimane una sfida. Per affrontare queste limitazioni, introduciamo un nuovo framework per la generazione di video ritratti stilizzati in tempo reale, che consente una video chat espressiva e flessibile, estendendosi dalla testa parlante all'interazione con la parte superiore del corpo. Il nostro approccio si compone delle seguenti due fasi. La prima fase prevede modelli di diffusione del movimento gerarchici ed efficienti, che tengono conto sia di rappresentazioni esplicite che implicite del movimento basate sugli input audio, in grado di generare una vasta gamma di espressioni facciali con controllo stilistico e sincronizzazione tra i movimenti della testa e del corpo. La seconda fase mira a generare video ritratti che includano movimenti della parte superiore del corpo, compresi i gesti delle mani. Iniettiamo segnali di controllo espliciti delle mani nel generatore per produrre movimenti delle mani più dettagliati, e ulteriormente eseguiamo un affinamento del volto per migliorare il realismo complessivo e l'espressività del video ritratto. Inoltre, il nostro approccio supporta una generazione efficiente e continua di video ritratti della parte superiore del corpo con una risoluzione massima di 512 * 768 a fino a 30fps su GPU 4090, supportando video-chat interattivi in tempo reale. I risultati sperimentali dimostrano la capacità del nostro approccio di produrre video ritratti con una ricca espressività e movimenti naturali della parte superiore del corpo.

English

Real-time interactive video-chat portraits have been increasingly recognized as the future trend, particularly due to the remarkable progress made in text and voice chat technologies. However, existing methods primarily focus on real-time generation of head movements, but struggle to produce synchronized body motions that match these head actions. Additionally, achieving fine-grained control over the speaking style and nuances of facial expressions remains a challenge. To address these limitations, we introduce a novel framework for stylized real-time portrait video generation, enabling expressive and flexible video chat that extends from talking head to upper-body interaction. Our approach consists of the following two stages. The first stage involves efficient hierarchical motion diffusion models, that take both explicit and implicit motion representations into account based on audio inputs, which can generate a diverse range of facial expressions with stylistic control and synchronization between head and body movements. The second stage aims to generate portrait video featuring upper-body movements, including hand gestures. We inject explicit hand control signals into the generator to produce more detailed hand movements, and further perform face refinement to enhance the overall realism and expressiveness of the portrait video. Additionally, our approach supports efficient and continuous generation of upper-body portrait video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting interactive video-chat in real-time. Experimental results demonstrate the capability of our approach to produce portrait videos with rich expressiveness and natural upper-body movements.

ChatAnyone: Generazione Stilizzata di Video Ritratti in Tempo Reale con Modello di Diffusione del Movimento Gerarchico

ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Abstract

Summary

Support

Support