SEAGULL: 시각-언어 지시 조정을 통한 관심 영역에 대한 비참조 이미지 품질 평가
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
November 15, 2024
저자: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
초록
기존의 이미지 품질 평가(IQA) 방법은 전체 이미지의 품질을 분석하는 데 놀라운 성과를 거두었지만, 일부 연구는 관심 영역(ROIs)에 대한 품질 분석을 탐구하고 있지 않다. ROIs의 품질 분석은 이미지 품질 향상을 위한 세밀한 지침을 제공하며 영역 수준의 품질에 초점을 맞춘 시나리오에 중요하다. 본 논문에서는 SEAGULL이라는 새로운 네트워크를 제안하는데, 이는 대형 Vision-Language 모델로부터의 지침을 받아 ROIs의 품질을 볼 수 있고 평가할 수 있는 능력을 갖추고 있다. SEAGULL은 Vision-Language 모델(VLM), ROIs를 지정하기 위해 생성된 Mask를 사용하는 Segment Anything Model (SAM), 그리고 지정된 ROIs의 전역 및 지역 토큰을 추출하기 위한 섬세하게 설계된 Mask 기반 특징 추출기(MFE)를 통합하여 ROIs에 대한 정확한 세밀한 IQA를 가능하게 한다. 게다가, 본 논문은 두 개의 ROI 기반 IQA 데이터셋, SEAGULL-100w와 SEAGULL-3k를 구축했는데, 이는 ROI 기반 IQA의 교육 및 평가를 위한 것이다. SEAGULL-100w는 선별적인 품질 지각 능력을 향상시키기 위해 사전 훈련용으로 약 100w의 합성 왜곡 이미지와 3300만 개의 ROIs로 구성되어 있으며, SEAGULL-3k는 실제 세계 왜곡을 인식하는 모델의 능력을 향상시키기 위해 약 3k의 실제 왜곡 ROIs를 포함하고 있다. SEAGULL-100w에서 사전 훈련을 거친 후 SEAGULL-3k에서 세밀한 조정을 한 결과, SEAGULL은 세밀한 ROI 품질 평가에서 놀라운 성과를 보여주었다. 코드와 데이터셋은 https://github.com/chencn2020/Seagull에서 공개적으로 제공된다.
English
Existing Image Quality Assessment (IQA) methods achieve remarkable success in
analyzing quality for overall image, but few works explore quality analysis for
Regions of Interest (ROIs). The quality analysis of ROIs can provide
fine-grained guidance for image quality improvement and is crucial for
scenarios focusing on region-level quality. This paper proposes a novel
network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a
Large vision-Language model. SEAGULL incorporates a vision-language model
(VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a
meticulously designed Mask-based Feature Extractor (MFE) to extract global and
local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs.
Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and
SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises
about 100w synthetic distortion images with 33 million ROIs for pre-training to
improve the model's ability of regional quality perception, and SEAGULL-3k
contains about 3k authentic distortion ROIs to enhance the model's ability to
perceive real world distortions. After pre-training on SEAGULL-100w and
fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained
ROI quality assessment. Code and datasets are publicly available at the
https://github.com/chencn2020/Seagull.Summary
AI-Generated Summary