Zero-1-to-A: Null-Shot Ein Bild zu animierbaren Kopf-Avataren unter Verwendung von Video-Diffusion
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Autoren: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Zusammenfassung
Die Erzeugung animierbarer Kopf-Avatare erfordert typischerweise umfangreiche Daten für das Training. Um den Datenbedarf zu reduzieren, liegt eine naheliegende Lösung darin, bestehende datenfreie Methoden zur Erzeugung statischer Avatare zu nutzen, wie beispielsweise vortrainierte Diffusionsmodelle mit Score Distillation Sampling (SDS), die Avatare mit pseudo-Ground-Truth-Ausgaben des Diffusionsmodells abgleichen. Die direkte Destillation von 4D-Avataren aus Video-Diffusion führt jedoch oft zu übermäßig geglätteten Ergebnissen aufgrund von räumlichen und zeitlichen Inkonsistenzen im generierten Video. Um dieses Problem zu lösen, schlagen wir Zero-1-to-A vor, eine robuste Methode, die einen räumlich und zeitlich konsistenten Datensatz für die 4D-Avatar-Rekonstruktion mithilfe des Video-Diffusionsmodells synthetisiert. Konkret konstruiert Zero-1-to-A iterativ Video-Datensätze und optimiert animierbare Avatare auf progressive Weise, wodurch sichergestellt wird, dass die Avatar-Qualität während des Lernprozesses gleichmäßig und konsistent steigt. Dieser progressive Lernprozess umfasst zwei Phasen: (1) Räumliches Konsistenzlernen fixiert Ausdrücke und lernt von Front- zu Seitenansichten, und (2) Zeitliches Konsistenzlernen fixiert Ansichten und lernt von entspannten zu übertriebenen Ausdrücken, wodurch 4D-Avatare auf einfache bis komplexe Weise generiert werden. Umfangreiche Experimente zeigen, dass Zero-1-to-A im Vergleich zu bestehenden diffusionsbasierten Methoden die Detailtreue, Animationsqualität und Rendering-Geschwindigkeit verbessert und somit eine Lösung für die Erstellung lebensechter Avatare bietet. Der Code ist öffentlich verfügbar unter: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary