ChatAnyone: Stilisierte Echtzeit-Porträtvideo-Generierung mit hierarchischem Bewegungsdiffusionsmodell
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Autoren: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Zusammenfassung
Echtzeit-interaktive Video-Chat-Porträts werden zunehmend als zukünftiger Trend anerkannt, insbesondere aufgrund der bemerkenswerten Fortschritte in der Text- und Sprach-Chat-Technologie. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Echtzeiterzeugung von Kopfbewegungen, haben aber Schwierigkeiten, synchronisierte Körperbewegungen zu erzeugen, die zu diesen Kopfbewegungen passen. Darüber hinaus bleibt die fein abgestimmte Steuerung des Sprechstils und der Nuancen der Gesichtsausdrücke eine Herausforderung. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges Framework für die stilvolle Echtzeiterzeugung von Porträtvideos vor, das ausdrucksstarke und flexible Video-Chats ermöglicht, die von sprechenden Köpfen bis hin zur Interaktion des Oberkörpers reichen. Unser Ansatz besteht aus den folgenden zwei Stufen. Die erste Stufe umfasst effiziente hierarchische Bewegungsdiffusionsmodelle, die sowohl explizite als auch implizite Bewegungsrepräsentationen auf Basis von Audioeingaben berücksichtigen. Diese können eine Vielzahl von Gesichtsausdrücken mit stilistischer Kontrolle und Synchronisation zwischen Kopf- und Körperbewegungen erzeugen. Die zweite Stufe zielt darauf ab, Porträtvideos mit Oberkörperbewegungen, einschließlich Handgesten, zu generieren. Wir fügen explizite Handsteuerungssignale in den Generator ein, um detailliertere Handbewegungen zu erzeugen, und führen zusätzlich eine Gesichtsverfeinerung durch, um den Gesamtrealismus und die Ausdruckskraft des Porträtvideos zu verbessern. Darüber hinaus unterstützt unser Ansatz die effiziente und kontinuierliche Erzeugung von Oberkörper-Porträtvideos in einer maximalen Auflösung von 512 * 768 bei bis zu 30 Bildern pro Sekunde auf einer 4090 GPU, was Echtzeit-Interaktionen im Video-Chat ermöglicht. Experimentelle Ergebnisse demonstrieren die Fähigkeit unseres Ansatzes, Porträtvideos mit reichhaltiger Ausdruckskraft und natürlichen Oberkörperbewegungen zu erzeugen.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary