ChatPaper.aiChatPaper

Entfesseln Sie die Pose-Vielfalt: Präzise und effiziente implizite Keypoint-basierte raumzeitliche Diffusion für audio-gesteuerte sprechende Porträts

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

March 17, 2025
Autoren: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI

Zusammenfassung

Die audio-gesteuerte Erzeugung von sprechenden Porträts aus Einzelbildern spielt eine entscheidende Rolle in den Bereichen Virtual Reality, digitaler Mensch-Erstellung und Filmproduktion. Bestehende Ansätze werden allgemein in keypoint-basierte und bildbasierte Methoden kategorisiert. Keypoint-basierte Methoden bewahren effektiv die Charakteridentität, haben jedoch Schwierigkeiten, feine Gesichtsdetails zu erfassen, aufgrund der begrenzten Punkte des 3D-Morphable-Modells. Darüber hinaus stehen traditionelle generative Netzwerke vor der Herausforderung, Kausalität zwischen Audio und Keypoints auf begrenzten Datensätzen herzustellen, was zu geringer Posendiversität führt. Im Gegensatz dazu erzeugen bildbasierte Ansätze hochwertige Porträts mit vielfältigen Details mithilfe von Diffusionsnetzwerken, leiden jedoch unter Identitätsverzerrungen und hohen Rechenkosten. In dieser Arbeit präsentieren wir KDTalker, das erste Framework, das unüberwachte implizite 3D-Keypoints mit einem spatio-temporalen Diffusionsmodell kombiniert. Durch die Nutzung von unüberwachten impliziten 3D-Keypoints passt KDTalker die Dichte der Gesichtsinformationen an, wodurch der Diffusionsprozess in der Lage ist, diverse Kopfposen zu modellieren und feine Gesichtsdetails flexibel zu erfassen. Der speziell entwickelte spatio-temporale Aufmerksamkeitsmechanismus gewährleistet eine präzise Lippensynchronisation und erzeugt zeitlich konsistente, hochwertige Animationen bei gleichzeitiger Steigerung der Recheneffizienz. Experimentelle Ergebnisse zeigen, dass KDTalker in Bezug auf Lippensynchronisationsgenauigkeit, Kopfposendiversität und Ausführungseffizienz state-of-the-art Leistungen erzielt. Unsere Codes sind verfügbar unter https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Summary

AI-Generated Summary

PDF72March 20, 2025