ChatPaper.aiChatPaper

Ontkoppelde Globale-Lokale Afstemming voor Verbeterd Compositioneel Begrip

Decoupled Global-Local Alignment for Improving Compositional Understanding

April 23, 2025
Auteurs: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI

Samenvatting

Contrastive Language-Image Pre-training (CLIP) heeft succes behaald bij meerdere downstream taken door beeld- en tekstmodaliteiten uit te lijnen. Echter, de aard van globaal contrastief leren beperkt CLIP's vermogen om compositionele concepten, zoals relaties en attributen, te begrijpen. Hoewel recente studies globale harde negatieve voorbeelden gebruiken om compositioneel begrip te verbeteren, gaan deze methoden ten koste van de inherente algemene capaciteiten van het model door tekstuele negatieve voorbeelden geforceerd te verwijderen van beelden in de embeddingruimte. Om deze beperking te overwinnen, introduceren we een Decoupled Global-Local Alignment (DeGLA) framework dat compositioneel begrip verbetert terwijl het verlies aan algemene capaciteiten aanzienlijk vermindert. Om het behoud van de inherente capaciteiten van het model te optimaliseren, integreren we een zelf-distillatiemechanisme binnen het globale uitlijningsproces, waarbij de leerbare beeld-tekst encoder wordt uitgelijnd met een bevroren leraarmodel afgeleid van een exponentieel voortschrijdend gemiddelde. Onder de beperking van zelf-distillatie wordt het catastrofale vergeten van vooraf getrainde kennis tijdens fine-tuning effectief gemitigeerd. Om compositioneel begrip te verbeteren, benutten we eerst de in-context leercapaciteit van Large Language Models (LLMs) om ongeveer 2M hoogwaardige negatieve bijschriften te construeren over vijf typen. Vervolgens stellen we de Image-Grounded Contrast (IGC) loss en Text-Grounded Contrast (TGC) loss voor om visie-taal compositioneel te versterken. Uitgebreide experimentele resultaten demonstreren de effectiviteit van het DeGLA framework. Vergeleken met eerdere state-of-the-art methoden, behaalt DeGLA een gemiddelde verbetering van 3,5% over de VALSE, SugarCrepe en ARO benchmarks. Tegelijkertijd behaalt het een gemiddelde prestatieverbetering van 13,0% op zero-shot classificatietaken over elf datasets. Onze code zal worden vrijgegeven op https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP's ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model's inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model's inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

Summary

AI-Generated Summary

PDF152April 24, 2025