Illuminazione Completa: Illuminazione e Armonizzazione Monoscopica Umana Generalizzabile e Coerente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
April 3, 2025
Autori: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI
Abstract
Questo articolo introduce Comprehensive Relighting, il primo approccio completo in grado di controllare e armonizzare l'illuminazione da un'immagine o un video di esseri umani con parti del corpo arbitrarie provenienti da qualsiasi scena. Costruire un modello così generalizzabile è estremamente impegnativo a causa della mancanza di dataset, che limita i modelli esistenti di relighting basati su immagini a scenari specifici (ad esempio, volto o esseri umani statici). Per affrontare questa sfida, riutilizziamo un modello di diffusione pre-addestrato come prior generale per l'immagine e modelliamo congiuntamente il relighting umano e l'armonizzazione dello sfondo in un framework coarse-to-fine. Per migliorare ulteriormente la coerenza temporale del relighting, introduciamo un modello di illuminazione temporale non supervisionato che apprende la coerenza del ciclo di illuminazione da molti video del mondo reale senza alcuna verità di riferimento. Durante l'inferenza, il modulo di illuminazione temporale è combinato con i modelli di diffusione attraverso algoritmi di fusione di caratteristiche spazio-temporali senza ulteriore addestramento; e applichiamo una nuova raffinazione guidata come post-elaborazione per preservare i dettagli ad alta frequenza dell'immagine di input. Negli esperimenti, Comprehensive Relighting dimostra una forte generalizzabilità e coerenza temporale dell'illuminazione, superando i metodi esistenti di relighting e armonizzazione umana basati su immagini.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach
that can both control and harmonize the lighting from an image or video of
humans with arbitrary body parts from any scene. Building such a generalizable
model is extremely challenging due to the lack of dataset, restricting existing
image-based relighting models to a specific scenario (e.g., face or static
human). To address this challenge, we repurpose a pre-trained diffusion model
as a general image prior and jointly model the human relighting and background
harmonization in the coarse-to-fine framework. To further enhance the temporal
coherence of the relighting, we introduce an unsupervised temporal lighting
model that learns the lighting cycle consistency from many real-world videos
without any ground truth. In inference time, our temporal lighting module is
combined with the diffusion models through the spatio-temporal feature blending
algorithms without extra training; and we apply a new guided refinement as a
post-processing to preserve the high-frequency details from the input image. In
the experiments, Comprehensive Relighting shows a strong generalizability and
lighting temporal coherence, outperforming existing image-based human
relighting and harmonization methods.Summary
AI-Generated Summary