MOUETTE : Évaluation de la qualité d'image sans référence pour les régions d'intérêt via l'ajustement de l'instruction vision-langage
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
Auteurs: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
Résumé
Les méthodes existantes d'évaluation de la qualité des images (IQA) ont obtenu un succès remarquable dans l'analyse de la qualité de l'image globale, mais peu d'études explorent l'analyse de la qualité pour les Régions d'Intérêt (ROIs). L'analyse de la qualité des ROIs peut fournir des orientations détaillées pour l'amélioration de la qualité de l'image et est cruciale pour les scénarios axés sur la qualité au niveau régional. Cet article propose un nouveau réseau, SEAGULL, qui peut Voir et Évaluer la qualité des ROIs avec l'aide d'un grand modèle vision-langage. SEAGULL intègre un modèle vision-langage (VLM), des masques générés par le modèle Segment Anything Model (SAM) pour spécifier les ROIs, et un Extracteur de Caractéristiques basé sur les Masques (MFE) soigneusement conçu pour extraire des jetons globaux et locaux pour les ROIs spécifiés, permettant une évaluation précise de la qualité des ROIs détaillée. De plus, cet article construit deux ensembles de données d'IQA basés sur les ROIs, SEAGULL-100w et SEAGULL-3k, pour l'entraînement et l'évaluation de l'IQA basée sur les ROIs. SEAGULL-100w comprend environ 100w d'images de distorsion synthétiques avec 33 millions de ROIs pour le pré-entraînement afin d'améliorer la capacité du modèle à percevoir la qualité régionale, et SEAGULL-3k contient environ 3k de ROIs de distorsion authentiques pour renforcer la capacité du modèle à percevoir les distorsions du monde réel. Après le pré-entraînement sur SEAGULL-100w et le fine-tuning sur SEAGULL-3k, SEAGULL montre des performances remarquables dans l'évaluation de la qualité des ROIs détaillée. Le code et les ensembles de données sont disponibles publiquement sur https://github.com/chencn2020/Seagull.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary