SEAGULL: Valutazione della qualità dell'immagine senza riferimento per Regioni di Interesse tramite Ottimizzazione dell'Istruzione Visione-Linguaggio

SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

November 15, 2024
Autori: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI

Abstract

I metodi esistenti di Valutazione della Qualità delle Immagini (IQA) hanno ottenuto un notevole successo nell'analisi della qualità complessiva delle immagini, ma pochi lavori esplorano l'analisi della qualità per le Regioni di Interesse (ROIs). L'analisi della qualità delle ROIs può fornire indicazioni dettagliate per il miglioramento della qualità delle immagini ed è cruciale per scenari che si concentrano sulla qualità a livello di regione. Questo articolo propone una nuova rete, SEAGULL, che può Visualizzare e Valutare la qualità delle ROIs con l'aiuto di un Grande modello di Visione-Linguaggio. SEAGULL incorpora un modello di visione-linguaggio (VLM), maschere generate dal Modello Segment Anything (SAM) per specificare le ROIs e un Estrattore di Caratteristiche basato su Maschera (MFE) progettato meticolosamente per estrarre token globali e locali per le ROIs specificate, consentendo una precisa valutazione della qualità dettagliata per le ROIs. Inoltre, questo articolo costruisce due set di dati IQA basati sulle ROI, SEAGULL-100w e SEAGULL-3k, per addestrare e valutare l'IQA basato sulle ROI. SEAGULL-100w comprende circa 100w immagini di distorsione sintetiche con 33 milioni di ROIs per il pre-addestramento al fine di migliorare la capacità del modello di percepire la qualità regionale e SEAGULL-3k contiene circa 3k ROIs di distorsione autentiche per potenziare la capacità del modello di percepire le distorsioni del mondo reale. Dopo il pre-addestramento su SEAGULL-100w e il raffinamento su SEAGULL-3k, SEAGULL mostra un notevole rendimento nella valutazione della qualità dettagliata delle ROI. Il codice e i set di dati sono disponibili pubblicamente su https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in analyzing quality for overall image, but few works explore quality analysis for Regions of Interest (ROIs). The quality analysis of ROIs can provide fine-grained guidance for image quality improvement and is crucial for scenarios focusing on region-level quality. This paper proposes a novel network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a Large vision-Language model. SEAGULL incorporates a vision-language model (VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a meticulously designed Mask-based Feature Extractor (MFE) to extract global and local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs. Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises about 100w synthetic distortion images with 33 million ROIs for pre-training to improve the model's ability of regional quality perception, and SEAGULL-3k contains about 3k authentic distortion ROIs to enhance the model's ability to perceive real world distortions. After pre-training on SEAGULL-100w and fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained ROI quality assessment. Code and datasets are publicly available at the https://github.com/chencn2020/Seagull.

Summary

AI-Generated Summary

PDF82November 20, 2024