DiffuMural: Restauro dei Murali di Dunhuang con Diffusione Multi-scala

Abstract

I modelli di diffusione pre-addestrati su larga scala hanno prodotto risultati eccellenti nel campo della generazione condizionata di immagini. Tuttavia, il restauro di antichi affreschi, come importante task downstream in questo ambito, pone sfide significative ai metodi di restauro basati su modelli di diffusione a causa delle ampie aree danneggiate e della scarsità di campioni di addestramento. I task di restauro condizionato si concentrano maggiormente sul fatto che la parte restaurata soddisfi gli standard estetici del restauro degli affreschi in termini di stile complessivo e dettagli delle giunzioni, e tali metriche per valutare i complementi euristici delle immagini sono carenti nella ricerca attuale. Proponiamo quindi DiffuMural, un meccanismo combinato di Convergenza Multi-scala e Diffusione Collaborativa con ControlNet e perdita di consistenza ciclica per ottimizzare la corrispondenza tra le immagini generate e il controllo condizionato. DiffuMural dimostra capacità eccezionali nel restauro degli affreschi, sfruttando dati di addestramento provenienti da 23 affreschi su larga scala di Dunhuang che presentano un'estetica visiva coerente. Il modello eccelle nel ripristinare dettagli intricati, ottenendo un aspetto complessivo coerente e affrontando le sfide uniche poste dagli affreschi incompleti privi di fondamento fattuale. Il nostro framework di valutazione incorpora quattro metriche chiave per valutare quantitativamente gli affreschi incompleti: accuratezza fattuale, dettaglio testurale, semantica contestuale e coerenza visiva olistica. Inoltre, integriamo valutazioni di valore umanistico per garantire che gli affreschi restaurati conservino il loro significato culturale e artistico. Esperimenti estensivi convalidano che il nostro metodo supera gli approcci all'avanguardia (SOTA) sia nelle metriche qualitative che quantitative.

English

Large-scale pre-trained diffusion models have produced excellent results in the field of conditional image generation. However, restoration of ancient murals, as an important downstream task in this field, poses significant challenges to diffusion model-based restoration methods due to its large defective area and scarce training samples. Conditional restoration tasks are more concerned with whether the restored part meets the aesthetic standards of mural restoration in terms of overall style and seam detail, and such metrics for evaluating heuristic image complements are lacking in current research. We therefore propose DiffuMural, a combined Multi-scale convergence and Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss to optimise the matching between the generated images and the conditional control. DiffuMural demonstrates outstanding capabilities in mural restoration, leveraging training data from 23 large-scale Dunhuang murals that exhibit consistent visual aesthetics. The model excels in restoring intricate details, achieving a coherent overall appearance, and addressing the unique challenges posed by incomplete murals lacking factual grounding. Our evaluation framework incorporates four key metrics to quantitatively assess incomplete murals: factual accuracy, textural detail, contextual semantics, and holistic visual coherence. Furthermore, we integrate humanistic value assessments to ensure the restored murals retain their cultural and artistic significance. Extensive experiments validate that our method outperforms state-of-the-art (SOTA) approaches in both qualitative and quantitative metrics.

DiffuMural: Restauro dei Murali di Dunhuang con Diffusione Multi-scala

DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Abstract

Summary

Support

Support