SEAGULL: Bildqualitätsbewertung ohne Referenz für Interessensregionen über die Feinabstimmung von Seh-Sprach-Anweisungen
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Autoren: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Zusammenfassung
Bestehende Methoden zur Bewertung der Bildqualität (IQA) erzielen bemerkenswerte Erfolge bei der Analyse der Gesamtbildqualität, aber nur wenige Arbeiten untersuchen die Qualitätsanalyse für Regionen von Interesse (ROIs). Die Qualitätsanalyse von ROIs kann detaillierte Anleitungen für die Verbesserung der Bildqualität liefern und ist entscheidend für Szenarien, die sich auf die Qualität auf Regionsebene konzentrieren. Dieser Artikel schlägt ein neuartiges Netzwerk, SEAGULL, vor, das ROIs-Qualität sehen und bewerten kann, mit Unterstützung eines großen Vision-Sprachmodells. SEAGULL integriert ein Vision-Sprachmodell (VLM), Masken, die von einem Modell zur Segmentierung beliebiger Objekte (SAM) generiert werden, um ROIs zu spezifizieren, und einen sorgfältig entworfenen maskenbasierten Merkmalsextraktor (MFE), um globale und lokale Token für spezifizierte ROIs zu extrahieren, was eine präzise detaillierte IQA für ROIs ermöglicht. Darüber hinaus konstruiert dieser Artikel zwei ROI-basierte IQA-Datensätze, SEAGULL-100w und SEAGULL-3k, für das Training und die Bewertung von ROI-basierter IQA. SEAGULL-100w umfasst etwa 100w synthetische Verzerrungsbilder mit 33 Millionen ROIs für das Vor-Training, um die Fähigkeit des Modells zur regionalen Qualitätswahrnehmung zu verbessern, und SEAGULL-3k enthält etwa 3k authentische Verzerrungs-ROIs, um die Fähigkeit des Modells zur Wahrnehmung von realen Verzerrungen zu stärken. Nach dem Vor-Training auf SEAGULL-100w und dem Feintuning auf SEAGULL-3k zeigt SEAGULL bemerkenswerte Leistungen bei der detaillierten Bewertung der ROI-Qualität. Code und Datensätze sind öffentlich verfügbar unter https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary