DiffuMural: Restauro dei Murali di Dunhuang con Diffusione Multi-scala
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion
April 13, 2025
Autori: Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
cs.AI
Abstract
I modelli di diffusione pre-addestrati su larga scala hanno prodotto risultati eccellenti nel campo della generazione condizionata di immagini. Tuttavia, il restauro di antichi affreschi, come importante task downstream in questo ambito, pone sfide significative ai metodi di restauro basati su modelli di diffusione a causa delle ampie aree danneggiate e della scarsità di campioni di addestramento. I task di restauro condizionato si concentrano maggiormente sul fatto che la parte restaurata soddisfi gli standard estetici del restauro degli affreschi in termini di stile complessivo e dettagli delle giunzioni, e tali metriche per valutare i complementi euristici delle immagini sono carenti nella ricerca attuale. Proponiamo quindi DiffuMural, un meccanismo combinato di Convergenza Multi-scala e Diffusione Collaborativa con ControlNet e perdita di consistenza ciclica per ottimizzare la corrispondenza tra le immagini generate e il controllo condizionato. DiffuMural dimostra capacità eccezionali nel restauro degli affreschi, sfruttando dati di addestramento provenienti da 23 affreschi su larga scala di Dunhuang che presentano un'estetica visiva coerente. Il modello eccelle nel ripristinare dettagli intricati, ottenendo un aspetto complessivo coerente e affrontando le sfide uniche poste dagli affreschi incompleti privi di fondamento fattuale. Il nostro framework di valutazione incorpora quattro metriche chiave per valutare quantitativamente gli affreschi incompleti: accuratezza fattuale, dettaglio testurale, semantica contestuale e coerenza visiva olistica. Inoltre, integriamo valutazioni di valore umanistico per garantire che gli affreschi restaurati conservino il loro significato culturale e artistico. Esperimenti estensivi convalidano che il nostro metodo supera gli approcci all'avanguardia (SOTA) sia nelle metriche qualitative che quantitative.
English
Large-scale pre-trained diffusion models have produced excellent results in
the field of conditional image generation. However, restoration of ancient
murals, as an important downstream task in this field, poses significant
challenges to diffusion model-based restoration methods due to its large
defective area and scarce training samples. Conditional restoration tasks are
more concerned with whether the restored part meets the aesthetic standards of
mural restoration in terms of overall style and seam detail, and such metrics
for evaluating heuristic image complements are lacking in current research. We
therefore propose DiffuMural, a combined Multi-scale convergence and
Collaborative Diffusion mechanism with ControlNet and cyclic consistency loss
to optimise the matching between the generated images and the conditional
control. DiffuMural demonstrates outstanding capabilities in mural restoration,
leveraging training data from 23 large-scale Dunhuang murals that exhibit
consistent visual aesthetics. The model excels in restoring intricate details,
achieving a coherent overall appearance, and addressing the unique challenges
posed by incomplete murals lacking factual grounding. Our evaluation framework
incorporates four key metrics to quantitatively assess incomplete murals:
factual accuracy, textural detail, contextual semantics, and holistic visual
coherence. Furthermore, we integrate humanistic value assessments to ensure the
restored murals retain their cultural and artistic significance. Extensive
experiments validate that our method outperforms state-of-the-art (SOTA)
approaches in both qualitative and quantitative metrics.Summary
AI-Generated Summary