ChatAnyone: Generazione Stilizzata di Video Ritratti in Tempo Reale con Modello di Diffusione del Movimento Gerarchico
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Autori: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Abstract
I ritratti video-chat interattivi in tempo reale sono stati sempre più riconosciuti come la tendenza futura, in particolare grazie ai notevoli progressi compiuti nelle tecnologie di chat testuali e vocali. Tuttavia, i metodi esistenti si concentrano principalmente sulla generazione in tempo reale dei movimenti della testa, ma faticano a produrre movimenti del corpo sincronizzati che corrispondano a queste azioni della testa. Inoltre, ottenere un controllo fine sullo stile di parlato e sulle sfumature delle espressioni facciali rimane una sfida. Per affrontare queste limitazioni, introduciamo un nuovo framework per la generazione di video ritratti stilizzati in tempo reale, che consente una video chat espressiva e flessibile, estendendosi dalla testa parlante all'interazione con la parte superiore del corpo. Il nostro approccio si compone delle seguenti due fasi. La prima fase prevede modelli di diffusione del movimento gerarchici ed efficienti, che tengono conto sia di rappresentazioni esplicite che implicite del movimento basate sugli input audio, in grado di generare una vasta gamma di espressioni facciali con controllo stilistico e sincronizzazione tra i movimenti della testa e del corpo. La seconda fase mira a generare video ritratti che includano movimenti della parte superiore del corpo, compresi i gesti delle mani. Iniettiamo segnali di controllo espliciti delle mani nel generatore per produrre movimenti delle mani più dettagliati, e ulteriormente eseguiamo un affinamento del volto per migliorare il realismo complessivo e l'espressività del video ritratto. Inoltre, il nostro approccio supporta una generazione efficiente e continua di video ritratti della parte superiore del corpo con una risoluzione massima di 512 * 768 a fino a 30fps su GPU 4090, supportando video-chat interattivi in tempo reale. I risultati sperimentali dimostrano la capacità del nostro approccio di produrre video ritratti con una ricca espressività e movimenti naturali della parte superiore del corpo.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary