인스턴스별 부정 마이닝을 위한 작업 일반적 프롬프터 세그멘테이션
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
저자: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
초록
과제 일반적 프롬프트 가능 이미지 분할은 하나의 과제 일반적 프롬프트만을 활용하여 다양한 샘플의 분할을 달성하려는 것을 목표로 합니다. 현재의 방법은 시각-언어 모델(VLMs)의 일반화 능력을 활용하여 이러한 과제 일반적 프롬프트로부터 사례별 프롬프트를 추론하여 분할 프로세스를 안내합니다. 그러나 VLMs가 일부 이미지 샘플에 대한 일반화에 어려움을 겪을 때, 사례별 프롬프트 예측이 부족해집니다. 이 문제를 해결하기 위해 우리는 과제 일반적 프롬프트 가능 분할을 위한 사례별 부정 마이닝 (INT)을 소개합니다. INT의 핵심 아이디어는 적절하지 않은 (부정적인) 사전 지식의 영향을 적응적으로 줄이는 한편, 더 높은 대조로 선택된 가장 타당한 사전 지식을 활용하여 사례별 프롬프트 생성을 최적화하는 것입니다. 구체적으로, INT는 두 가지 구성 요소로 구성됩니다: (1) 사례별 프롬프트 생성, 이는 프롬프트 생성 중 잘못된 정보를 점진적으로 걸러냅니다; (2) 의미적 마스크 생성, 이는 각 이미지 인스턴스 분할이 사례별 프롬프트의 의미와 정확하게 일치하도록 보장합니다. INT는 은폐된 객체와 의료 이미지를 포함한 여섯 개의 데이터셋에서 유효성, 견고성 및 확장성을 입증하며 그 효과를 보여줍니다.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary