MaskRIS: Aumento dei dati consapevole della distorsione semantica per la segmentazione delle immagini di riferimento
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Autori: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Abstract
Il Riferimento alla Segmentazione delle Immagini (RSI) è un compito avanzato di visione-linguaggio che consiste nell'identificare e segmentare gli oggetti all'interno di un'immagine come descritto da descrizioni di testo libero. Mentre studi precedenti si sono concentrati sull'allineamento delle caratteristiche visive e linguistiche, l'esplorazione delle tecniche di addestramento, come l'aumento dei dati, rimane poco approfondita. In questo lavoro, esploriamo un efficace aumento dei dati per RSI e proponiamo un nuovo framework di addestramento chiamato Segmentazione delle Immagini con Riferimento Mascherato (MaskRIS). Osserviamo che gli aumenti convenzionali delle immagini non sono sufficienti per RSI, portando a una degradazione delle prestazioni, mentre un semplice mascheramento casuale migliora significativamente le prestazioni di RSI. MaskRIS utilizza sia il mascheramento delle immagini che del testo, seguito da Apprendimento Contestuale Consapevole della Distorsione (DCL) per sfruttare appieno i vantaggi della strategia di mascheramento. Questo approccio può migliorare la robustezza del modello alle occlusioni, alle informazioni incomplete e alle varie complessità linguistiche, portando a un significativo miglioramento delle prestazioni. Gli esperimenti dimostrano che MaskRIS può essere facilmente applicato a vari modelli di RSI, superando i metodi esistenti sia in impostazioni completamente supervisionate che debolmente supervisionate. Infine, MaskRIS raggiunge nuove prestazioni di primo piano sui dataset RefCOCO, RefCOCO+ e RefCOCOg. Il codice è disponibile su https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary