MaskRIS: Aumento dei dati consapevole della distorsione semantica per la segmentazione delle immagini di riferimento

Abstract

Il Riferimento alla Segmentazione delle Immagini (RSI) è un compito avanzato di visione-linguaggio che consiste nell'identificare e segmentare gli oggetti all'interno di un'immagine come descritto da descrizioni di testo libero. Mentre studi precedenti si sono concentrati sull'allineamento delle caratteristiche visive e linguistiche, l'esplorazione delle tecniche di addestramento, come l'aumento dei dati, rimane poco approfondita. In questo lavoro, esploriamo un efficace aumento dei dati per RSI e proponiamo un nuovo framework di addestramento chiamato Segmentazione delle Immagini con Riferimento Mascherato (MaskRIS). Osserviamo che gli aumenti convenzionali delle immagini non sono sufficienti per RSI, portando a una degradazione delle prestazioni, mentre un semplice mascheramento casuale migliora significativamente le prestazioni di RSI. MaskRIS utilizza sia il mascheramento delle immagini che del testo, seguito da Apprendimento Contestuale Consapevole della Distorsione (DCL) per sfruttare appieno i vantaggi della strategia di mascheramento. Questo approccio può migliorare la robustezza del modello alle occlusioni, alle informazioni incomplete e alle varie complessità linguistiche, portando a un significativo miglioramento delle prestazioni. Gli esperimenti dimostrano che MaskRIS può essere facilmente applicato a vari modelli di RSI, superando i metodi esistenti sia in impostazioni completamente supervisionate che debolmente supervisionate. Infine, MaskRIS raggiunge nuove prestazioni di primo piano sui dataset RefCOCO, RefCOCO+ e RefCOCOg. Il codice è disponibile su https://github.com/naver-ai/maskris.

English

Referring Image Segmentation (RIS) is an advanced vision-language task that involves identifying and segmenting objects within an image as described by free-form text descriptions. While previous studies focused on aligning visual and language features, exploring training techniques, such as data augmentation, remains underexplored. In this work, we explore effective data augmentation for RIS and propose a novel training framework called Masked Referring Image Segmentation (MaskRIS). We observe that the conventional image augmentations fall short of RIS, leading to performance degradation, while simple random masking significantly enhances the performance of RIS. MaskRIS uses both image and text masking, followed by Distortion-aware Contextual Learning (DCL) to fully exploit the benefits of the masking strategy. This approach can improve the model's robustness to occlusions, incomplete information, and various linguistic complexities, resulting in a significant performance improvement. Experiments demonstrate that MaskRIS can easily be applied to various RIS models, outperforming existing methods in both fully supervised and weakly supervised settings. Finally, MaskRIS achieves new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code is available at https://github.com/naver-ai/maskris.

MaskRIS: Aumento dei dati consapevole della distorsione semantica per la segmentazione delle immagini di riferimento

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Abstract

Summary

Support