ChatPaper.aiChatPaper

DC-SAM: In-Context Segmentierung von Beliebigem in Bildern und Videos durch Duale Konsistenz

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

April 16, 2025
Autoren: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI

Zusammenfassung

Bei einem einzelnen gelabelten Beispiel zielt die In-Kontext-Segmentierung darauf ab, entsprechende Objekte zu segmentieren. Diese Einstellung, bekannt als One-Shot-Segmentierung im Few-Shot-Learning, untersucht die Generalisierungsfähigkeit des Segmentierungsmodells und wurde auf verschiedene Vision-Aufgaben angewendet, einschließlich Szenenverständnis und Bild-/Videobearbeitung. Während neuere Segment-Anything-Modelle (SAM) state-of-the-art Ergebnisse in der interaktiven Segmentierung erzielt haben, sind diese Ansätze nicht direkt auf die In-Kontext-Segmentierung anwendbar. In dieser Arbeit schlagen wir die Dual Consistency SAM (DC-SAM)-Methode basierend auf Prompt-Tuning vor, um SAM und SAM2 für die In-Kontext-Segmentierung von Bildern und Videos anzupassen. Unsere zentralen Erkenntnisse bestehen darin, die Merkmale des Prompt-Encoders von SAM in der Segmentierung durch die Bereitstellung hochwertiger visueller Prompts zu verbessern. Bei der Generierung einer Maskenpriorität fusionieren wir die SAM-Merkmale, um den Prompt-Encoder besser auszurichten. Anschließend entwerfen wir eine zyklus-konsistente Cross-Attention auf fusionierten Merkmalen und initialen visuellen Prompts. Daraufhin wird ein Dual-Branch-Design bereitgestellt, indem diskriminative positive und negative Prompts im Prompt-Encoder verwendet werden. Darüber hinaus entwerfen wir eine einfache Mask-Tube-Trainingsstrategie, um unsere vorgeschlagene Dual-Consistency-Methode in den Mask-Tube zu integrieren. Obwohl das vorgeschlagene DC-SAM primär für Bilder entwickelt wurde, kann es nahtlos mit der Unterstützung von SAM2 auf den Video-Bereich erweitert werden. Angesichts des Fehlens von In-Kontext-Segmentierung im Video-Bereich kuratieren und konstruieren wir manuell den ersten Benchmark aus bestehenden Video-Segmentierungsdatensätzen, genannt In-Context Video Object Segmentation (IC-VOS), um die In-Kontext-Fähigkeit des Modells besser zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode 55,5 (+1,4) mIoU auf COCO-20i, 73,0 (+1,1) mIoU auf PASCAL-5i und einen J&F-Score von 71,52 auf dem vorgeschlagenen IC-VOS-Benchmark erreicht. Unser Quellcode und Benchmark sind unter https://github.com/zaplm/DC-SAM verfügbar.
English
Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model's generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM's prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.

Summary

AI-Generated Summary

PDF61April 28, 2025