SynthLight: Iluminação de Retratos com Modelo de Difusão Aprendendo a Re-renderizar Rostos Sintéticos
SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic Faces
January 16, 2025
Autores: Sumit Chaturvedi, Mengwei Ren, Yannick Hold-Geoffroy, Jingyuan Liu, Julie Dorsey, Zhixin Shu
cs.AI
Resumo
Apresentamos o SynthLight, um modelo de difusão para relighting de retratos. Nossa abordagem enquadra o relighting de imagens como um problema de rerenderização, onde os pixels são transformados em resposta a mudanças nas condições de iluminação ambiental. Utilizando um mecanismo de renderização baseado em física, sintetizamos um conjunto de dados para simular essa transformação condicionada pela iluminação com ativos de cabeça 3D sob iluminação variada. Propomos duas estratégias de treinamento e inferência para preencher a lacuna entre os domínios de imagem sintética e real: (1) treinamento multi-tarefa que aproveita retratos humanos reais sem rótulos de iluminação; (2) um procedimento de amostragem de difusão no tempo de inferência com base em orientação livre de classificador que aproveita o retrato de entrada para preservar melhor os detalhes. Nosso método generaliza para diversas fotografias reais e produz efeitos realistas de iluminação, incluindo destaques especulares e sombras projetadas, preservando a identidade do sujeito. Nossos experimentos quantitativos nos dados do Light Stage demonstram resultados comparáveis aos métodos de relighting de ponta. Nossos resultados qualitativos em imagens do mundo real mostram efeitos de iluminação ricos e sem precedentes. Página do Projeto: https://vrroom.github.io/synthlight/
English
We introduce SynthLight, a diffusion model for portrait relighting. Our
approach frames image relighting as a re-rendering problem, where pixels are
transformed in response to changes in environmental lighting conditions. Using
a physically-based rendering engine, we synthesize a dataset to simulate this
lighting-conditioned transformation with 3D head assets under varying lighting.
We propose two training and inference strategies to bridge the gap between the
synthetic and real image domains: (1) multi-task training that takes advantage
of real human portraits without lighting labels; (2) an inference time
diffusion sampling procedure based on classifier-free guidance that leverages
the input portrait to better preserve details. Our method generalizes to
diverse real photographs and produces realistic illumination effects, including
specular highlights and cast shadows, while preserving the subject's identity.
Our quantitative experiments on Light Stage data demonstrate results comparable
to state-of-the-art relighting methods. Our qualitative results on in-the-wild
images showcase rich and unprecedented illumination effects. Project Page:
https://vrroom.github.io/synthlight/Summary
AI-Generated Summary