DiffPortrait360: Sintesi di Ritratti Coerenti a 360 Gradi con Diffusione
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis
March 19, 2025
Autori: Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li
cs.AI
Abstract
Generare viste a 360° di alta qualità di teste umane a partire da immagini a singola vista è essenziale per abilitare applicazioni di telepresenza immersiva accessibili e la creazione di contenuti personalizzati su larga scala. Mentre i metodi all'avanguardia per la generazione completa della testa sono limitati alla modellazione di teste umane realistiche, i più recenti approcci basati su diffusione per la sintesi di teste con stile onnisciente possono produrre solo viste frontali e faticano a mantenere la coerenza tra le diverse angolazioni, impedendo la loro conversione in veri modelli 3D per il rendering da angoli arbitrari. Introduciamo un approccio innovativo che genera viste a 360° completamente coerenti, adattandosi a forme umane, stilizzate e antropomorfe, inclusi accessori come occhiali e cappelli. Il nostro metodo si basa sul framework DiffPortrait3D, incorporando un ControlNet personalizzato per la generazione di dettagli della parte posteriore della testa e un modulo duale di aspetto per garantire la coerenza globale tra fronte e retro. Addestrando su sequenze di viste continue e integrando un'immagine di riferimento posteriore, il nostro approccio raggiunge una sintesi di viste robusta e localmente continua. Il nostro modello può essere utilizzato per produrre campi di radianza neurale (NeRF) di alta qualità per il rendering in tempo reale da punti di vista liberi, superando i metodi più avanzati nella sintesi di oggetti e nella generazione di teste a 360° per ritratti di input molto impegnativi.
English
Generating high-quality 360-degree views of human heads from single-view
images is essential for enabling accessible immersive telepresence applications
and scalable personalized content creation. While cutting-edge methods for full
head generation are limited to modeling realistic human heads, the latest
diffusion-based approaches for style-omniscient head synthesis can produce only
frontal views and struggle with view consistency, preventing their conversion
into true 3D models for rendering from arbitrary angles. We introduce a novel
approach that generates fully consistent 360-degree head views, accommodating
human, stylized, and anthropomorphic forms, including accessories like glasses
and hats. Our method builds on the DiffPortrait3D framework, incorporating a
custom ControlNet for back-of-head detail generation and a dual appearance
module to ensure global front-back consistency. By training on continuous view
sequences and integrating a back reference image, our approach achieves robust,
locally continuous view synthesis. Our model can be used to produce
high-quality neural radiance fields (NeRFs) for real-time, free-viewpoint
rendering, outperforming state-of-the-art methods in object synthesis and
360-degree head generation for very challenging input portraits.Summary
AI-Generated Summary