ChatPaper.aiChatPaper

DC-SAM: In-Context Segmenteren van Alles in Afbeeldingen en Video's via Duale Consistentie

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

April 16, 2025
Auteurs: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI

Samenvatting

Gegeven een enkel gelabeld voorbeeld, heeft in-context segmentatie als doel om overeenkomstige objecten te segmenteren. Deze instelling, bekend als one-shot segmentatie in few-shot learning, onderzoekt het generalisatievermogen van het segmentatiemodel en is toegepast op diverse visuele taken, waaronder scènebegrip en beeld-/videobewerking. Hoewel recente Segment Anything Models state-of-the-art resultaten hebben behaald in interactieve segmentatie, zijn deze benaderingen niet direct toepasbaar op in-context segmentatie. In dit werk stellen we de Dual Consistency SAM (DC-SAM) methode voor, gebaseerd op prompt-tuning, om SAM en SAM2 aan te passen voor in-context segmentatie van zowel afbeeldingen als video's. Onze belangrijkste inzichten zijn het verbeteren van de kenmerken van de prompt-encoder van SAM in segmentatie door het aanbieden van hoogwaardige visuele prompts. Bij het genereren van een maskerprior, fuseren we de SAM-kenmerken om de prompt-encoder beter uit te lijnen. Vervolgens ontwerpen we een cyclus-consistente cross-attentie op gefuseerde kenmerken en initiële visuele prompts. Daarna wordt een dual-branch ontwerp geboden door het gebruik van discriminerende positieve en negatieve prompts in de prompt-encoder. Bovendien ontwerpen we een eenvoudige mask-tube trainingsstrategie om onze voorgestelde dual consistency methode in de mask-tube te integreren. Hoewel de voorgestelde DC-SAM primair is ontworpen voor afbeeldingen, kan het naadloos worden uitgebreid naar het videodomein met de ondersteuning van SAM2. Gezien het ontbreken van in-context segmentatie in het videodomein, hebben we handmatig de eerste benchmark samengesteld en geconstrueerd uit bestaande videosegmentatiedatasets, genaamd In-Context Video Object Segmentation (IC-VOS), om het in-context vermogen van het model beter te beoordelen. Uitgebreide experimenten tonen aan dat onze methode 55.5 (+1.4) mIoU behaalt op COCO-20i, 73.0 (+1.1) mIoU op PASCAL-5i, en een J&F-score van 71.52 op de voorgestelde IC-VOS benchmark. Onze broncode en benchmark zijn beschikbaar op https://github.com/zaplm/DC-SAM.
English
Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model's generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM's prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.

Summary

AI-Generated Summary

PDF62April 28, 2025