MEEUW: Kwaliteitsbeoordeling van afbeeldingen zonder referentie voor Regio's van Belang via Aanpassing van Instructies voor Visie en Taal.

SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

November 15, 2024
Auteurs: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI

Samenvatting

Bestaande methoden voor het beoordelen van beeldkwaliteit (IQA) behalen opmerkelijk succes bij het analyseren van de algehele beeldkwaliteit, maar weinig onderzoeken richten zich op de kwaliteitsanalyse van Regio's van Interesse (ROIs). De kwaliteitsanalyse van ROIs kan gedetailleerde begeleiding bieden voor het verbeteren van de beeldkwaliteit en is cruciaal voor situaties die zich richten op kwaliteit op regio-niveau. Dit artikel stelt een nieuwe netwerk voor, SEAGULL, dat in staat is om ROIs te zien en te beoordelen met begeleiding van een groot vision-language model. SEAGULL integreert een vision-language model (VLM), maskers gegenereerd door het Segment Anything Model (SAM) om ROIs te specificeren, en een zorgvuldig ontworpen op maskers gebaseerde kenmerkextractor (MFE) om globale en lokale tokens voor gespecificeerde ROIs te extraheren, waardoor nauwkeurige gedetailleerde IQA voor ROIs mogelijk is. Bovendien construeert dit artikel twee op ROIs gebaseerde IQA datasets, SEAGULL-100w en SEAGULL-3k, voor het trainen en evalueren van op ROI's gebaseerde IQA. SEAGULL-100w bestaat uit ongeveer 100w synthetische vervormingsbeelden met 33 miljoen ROIs voor pre-training om de vaardigheid van het model in het waarnemen van regionale kwaliteit te verbeteren, en SEAGULL-3k bevat ongeveer 3k authentieke vervormde ROIs om de vaardigheid van het model in het waarnemen van echte wereldvervormingen te verbeteren. Na pre-training op SEAGULL-100w en fine-tuning op SEAGULL-3k, toont SEAGULL opmerkelijke prestaties bij de gedetailleerde beoordeling van ROI-kwaliteit. De code en datasets zijn openbaar beschikbaar op https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in analyzing quality for overall image, but few works explore quality analysis for Regions of Interest (ROIs). The quality analysis of ROIs can provide fine-grained guidance for image quality improvement and is crucial for scenarios focusing on region-level quality. This paper proposes a novel network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a Large vision-Language model. SEAGULL incorporates a vision-language model (VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a meticulously designed Mask-based Feature Extractor (MFE) to extract global and local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs. Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises about 100w synthetic distortion images with 33 million ROIs for pre-training to improve the model's ability of regional quality perception, and SEAGULL-3k contains about 3k authentic distortion ROIs to enhance the model's ability to perceive real world distortions. After pre-training on SEAGULL-100w and fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained ROI quality assessment. Code and datasets are publicly available at the https://github.com/chencn2020/Seagull.

Summary

AI-Generated Summary

PDF62November 20, 2024