Zero-1-to-A: Null-Shot Ein Bild zu animierbaren Kopf-Avataren unter Verwendung von Video-Diffusion

Zusammenfassung

Die Erzeugung animierbarer Kopf-Avatare erfordert typischerweise umfangreiche Daten für das Training. Um den Datenbedarf zu reduzieren, liegt eine naheliegende Lösung darin, bestehende datenfreie Methoden zur Erzeugung statischer Avatare zu nutzen, wie beispielsweise vortrainierte Diffusionsmodelle mit Score Distillation Sampling (SDS), die Avatare mit pseudo-Ground-Truth-Ausgaben des Diffusionsmodells abgleichen. Die direkte Destillation von 4D-Avataren aus Video-Diffusion führt jedoch oft zu übermäßig geglätteten Ergebnissen aufgrund von räumlichen und zeitlichen Inkonsistenzen im generierten Video. Um dieses Problem zu lösen, schlagen wir Zero-1-to-A vor, eine robuste Methode, die einen räumlich und zeitlich konsistenten Datensatz für die 4D-Avatar-Rekonstruktion mithilfe des Video-Diffusionsmodells synthetisiert. Konkret konstruiert Zero-1-to-A iterativ Video-Datensätze und optimiert animierbare Avatare auf progressive Weise, wodurch sichergestellt wird, dass die Avatar-Qualität während des Lernprozesses gleichmäßig und konsistent steigt. Dieser progressive Lernprozess umfasst zwei Phasen: (1) Räumliches Konsistenzlernen fixiert Ausdrücke und lernt von Front- zu Seitenansichten, und (2) Zeitliches Konsistenzlernen fixiert Ansichten und lernt von entspannten zu übertriebenen Ausdrücken, wodurch 4D-Avatare auf einfache bis komplexe Weise generiert werden. Umfangreiche Experimente zeigen, dass Zero-1-to-A im Vergleich zu bestehenden diffusionsbasierten Methoden die Detailtreue, Animationsqualität und Rendering-Geschwindigkeit verbessert und somit eine Lösung für die Erstellung lebensechter Avatare bietet. Der Code ist öffentlich verfügbar unter: https://github.com/ZhenglinZhou/Zero-1-to-A.

English

Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Zero-1-to-A: Null-Shot Ein Bild zu animierbaren Kopf-Avataren unter Verwendung von Video-Diffusion

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Zusammenfassung

Summary

Support