MEEUW: Kwaliteitsbeoordeling van afbeeldingen zonder referentie voor Regio's van Belang via Aanpassing van Instructies voor Visie en Taal.
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Auteurs: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Samenvatting
Bestaande methoden voor het beoordelen van beeldkwaliteit (IQA) behalen opmerkelijk succes bij het analyseren van de algehele beeldkwaliteit, maar weinig onderzoeken richten zich op de kwaliteitsanalyse van Regio's van Interesse (ROIs). De kwaliteitsanalyse van ROIs kan gedetailleerde begeleiding bieden voor het verbeteren van de beeldkwaliteit en is cruciaal voor situaties die zich richten op kwaliteit op regio-niveau. Dit artikel stelt een nieuwe netwerk voor, SEAGULL, dat in staat is om ROIs te zien en te beoordelen met begeleiding van een groot vision-language model. SEAGULL integreert een vision-language model (VLM), maskers gegenereerd door het Segment Anything Model (SAM) om ROIs te specificeren, en een zorgvuldig ontworpen op maskers gebaseerde kenmerkextractor (MFE) om globale en lokale tokens voor gespecificeerde ROIs te extraheren, waardoor nauwkeurige gedetailleerde IQA voor ROIs mogelijk is. Bovendien construeert dit artikel twee op ROIs gebaseerde IQA datasets, SEAGULL-100w en SEAGULL-3k, voor het trainen en evalueren van op ROI's gebaseerde IQA. SEAGULL-100w bestaat uit ongeveer 100w synthetische vervormingsbeelden met 33 miljoen ROIs voor pre-training om de vaardigheid van het model in het waarnemen van regionale kwaliteit te verbeteren, en SEAGULL-3k bevat ongeveer 3k authentieke vervormde ROIs om de vaardigheid van het model in het waarnemen van echte wereldvervormingen te verbeteren. Na pre-training op SEAGULL-100w en fine-tuning op SEAGULL-3k, toont SEAGULL opmerkelijke prestaties bij de gedetailleerde beoordeling van ROI-kwaliteit. De code en datasets zijn openbaar beschikbaar op https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary