DC-SAM : Segmentation contextuelle dans les images et vidéos via une double cohérence
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
April 16, 2025
Auteurs: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI
Résumé
Étant donné un seul exemple étiqueté, la segmentation en contexte vise à segmenter les objets correspondants. Ce cadre, connu sous le nom de segmentation en un coup dans l'apprentissage en peu de coups, explore la capacité de généralisation du modèle de segmentation et a été appliqué à diverses tâches de vision, notamment la compréhension de scènes et l'édition d'images/vidéos. Bien que les modèles récents de type Segment Anything (SAM) aient atteint des résultats de pointe en segmentation interactive, ces approches ne sont pas directement applicables à la segmentation en contexte. Dans ce travail, nous proposons la méthode Dual Consistency SAM (DC-SAM) basée sur l'ajustement par prompts pour adapter SAM et SAM2 à la segmentation en contexte d'images et de vidéos. Nos idées clés consistent à améliorer les caractéristiques de l'encodeur de prompts de SAM en segmentation en fournissant des prompts visuels de haute qualité. Lors de la génération d'un masque préalable, nous fusionnons les caractéristiques de SAM pour mieux aligner l'encodeur de prompts. Ensuite, nous concevons une attention croisée cyclique sur les caractéristiques fusionnées et les prompts visuels initiaux. Puis, une conception à double branche est proposée en utilisant les prompts positifs et négatifs discriminatifs dans l'encodeur de prompts. De plus, nous concevons une stratégie d'entraînement simple de type masque-tube pour intégrer notre méthode de double cohérence dans le tube de masques. Bien que le DC-SAM proposé soit principalement conçu pour les images, il peut être étendu de manière transparente au domaine vidéo avec le support de SAM2. Compte tenu de l'absence de segmentation en contexte dans le domaine vidéo, nous avons manuellement sélectionné et construit le premier benchmark à partir de jeux de données existants de segmentation vidéo, nommé In-Context Video Object Segmentation (IC-VOS), pour mieux évaluer la capacité en contexte du modèle. Des expériences approfondies démontrent que notre méthode atteint 55,5 (+1,4) mIoU sur COCO-20i, 73,0 (+1,1) mIoU sur PASCAL-5i, et un score J&F de 71,52 sur le benchmark IC-VOS proposé. Notre code source et benchmark sont disponibles à l'adresse https://github.com/zaplm/DC-SAM.
English
Given a single labeled example, in-context segmentation aims to segment
corresponding objects. This setting, known as one-shot segmentation in few-shot
learning, explores the segmentation model's generalization ability and has been
applied to various vision tasks, including scene understanding and image/video
editing. While recent Segment Anything Models have achieved state-of-the-art
results in interactive segmentation, these approaches are not directly
applicable to in-context segmentation. In this work, we propose the Dual
Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2
for in-context segmentation of both images and videos. Our key insights are to
enhance the features of the SAM's prompt encoder in segmentation by providing
high-quality visual prompts. When generating a mask prior, we fuse the SAM
features to better align the prompt encoder. Then, we design a cycle-consistent
cross-attention on fused features and initial visual prompts. Next, a
dual-branch design is provided by using the discriminative positive and
negative prompts in the prompt encoder. Furthermore, we design a simple
mask-tube training strategy to adopt our proposed dual consistency method into
the mask tube. Although the proposed DC-SAM is primarily designed for images,
it can be seamlessly extended to the video domain with the support of SAM2.
Given the absence of in-context segmentation in the video domain, we manually
curate and construct the first benchmark from existing video segmentation
datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess
the in-context capability of the model. Extensive experiments demonstrate that
our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on
PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our
source code and benchmark are available at https://github.com/zaplm/DC-SAM.Summary
AI-Generated Summary