IDArb: Decomposizione Intrinseca per un Numero Arbitrario di Viste e Illuminazioni di Input

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

December 16, 2024
Autori: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin
cs.AI

Abstract

Catturare informazioni geometriche e materiali dalle immagini rimane una sfida fondamentale nella visione artificiale e nella grafica. I metodi tradizionali basati sull'ottimizzazione spesso richiedono ore di calcolo per ricostruire la geometria, le proprietà dei materiali e l'illuminazione ambientale da input multi-view densi, lottando ancora con le ambiguità intrinseche tra illuminazione e materiale. D'altra parte, gli approcci basati sull'apprendimento sfruttano ricche conoscenze a priori sui materiali dai dataset esistenti degli oggetti 3D ma affrontano sfide nel mantenere la coerenza multi-view. In questo articolo, presentiamo IDArb, un modello basato sulla diffusione progettato per eseguire la decomposizione intrinseca su un numero arbitrario di immagini sotto illuminazioni variabili. Il nostro metodo raggiunge una stima accurata e coerente multi-view sulle normali della superficie e sulle proprietà dei materiali. Ciò è reso possibile attraverso un nuovo modulo di attenzione cross-view, cross-domain e una strategia di addestramento illuminazione-aumentata e adattiva alla vista. Inoltre, presentiamo ARB-Objaverse, un nuovo dataset che fornisce dati intrinseci multi-view su larga scala e rendering in condizioni di illuminazione diverse, supportando un addestramento robusto. Estesi esperimenti dimostrano che IDArb supera i metodi all'avanguardia sia qualitativamente che quantitativamente. Inoltre, il nostro approccio facilita una serie di compiti successivi, tra cui il rilievo da singola immagine, lo stereo fotometrico e la ricostruzione 3D, evidenziando le sue ampie applicazioni nella creazione di contenuti 3D realistici.
English
Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

Summary

AI-Generated Summary

PDF122December 17, 2024