ChatPaper.aiChatPaper

인스턴스별 부정 마이닝을 위한 작업 일반적 프롬프터 세그멘테이션

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

January 30, 2025
저자: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI

초록

과제 일반적 프롬프트 가능 이미지 분할은 하나의 과제 일반적 프롬프트만을 활용하여 다양한 샘플의 분할을 달성하려는 것을 목표로 합니다. 현재의 방법은 시각-언어 모델(VLMs)의 일반화 능력을 활용하여 이러한 과제 일반적 프롬프트로부터 사례별 프롬프트를 추론하여 분할 프로세스를 안내합니다. 그러나 VLMs가 일부 이미지 샘플에 대한 일반화에 어려움을 겪을 때, 사례별 프롬프트 예측이 부족해집니다. 이 문제를 해결하기 위해 우리는 과제 일반적 프롬프트 가능 분할을 위한 사례별 부정 마이닝 (INT)을 소개합니다. INT의 핵심 아이디어는 적절하지 않은 (부정적인) 사전 지식의 영향을 적응적으로 줄이는 한편, 더 높은 대조로 선택된 가장 타당한 사전 지식을 활용하여 사례별 프롬프트 생성을 최적화하는 것입니다. 구체적으로, INT는 두 가지 구성 요소로 구성됩니다: (1) 사례별 프롬프트 생성, 이는 프롬프트 생성 중 잘못된 정보를 점진적으로 걸러냅니다; (2) 의미적 마스크 생성, 이는 각 이미지 인스턴스 분할이 사례별 프롬프트의 의미와 정확하게 일치하도록 보장합니다. INT는 은폐된 객체와 의료 이미지를 포함한 여섯 개의 데이터셋에서 유효성, 견고성 및 확장성을 입증하며 그 효과를 보여줍니다.
English
Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

Summary

AI-Generated Summary

PDF22February 3, 2025