Ontkoppelde Globale-Lokale Afstemming voor Verbeterd Compositioneel Begrip
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Auteurs: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP) heeft succes behaald bij
meerdere downstream taken door beeld- en tekstmodaliteiten uit te lijnen. Echter,
de aard van globaal contrastief leren beperkt CLIP's vermogen om compositionele
concepten, zoals relaties en attributen, te begrijpen. Hoewel recente studies
globale harde negatieve voorbeelden gebruiken om compositioneel begrip te
verbeteren, gaan deze methoden ten koste van de inherente algemene capaciteiten
van het model door tekstuele negatieve voorbeelden geforceerd te verwijderen van
beelden in de embeddingruimte. Om deze beperking te overwinnen, introduceren we
een Decoupled Global-Local Alignment (DeGLA) framework dat compositioneel
begrip verbetert terwijl het verlies aan algemene capaciteiten aanzienlijk
vermindert. Om het behoud van de inherente capaciteiten van het model te
optimaliseren, integreren we een zelf-distillatiemechanisme binnen het globale
uitlijningsproces, waarbij de leerbare beeld-tekst encoder wordt uitgelijnd met
een bevroren leraarmodel afgeleid van een exponentieel voortschrijdend gemiddelde.
Onder de beperking van zelf-distillatie wordt het catastrofale vergeten van
vooraf getrainde kennis tijdens fine-tuning effectief gemitigeerd. Om
compositioneel begrip te verbeteren, benutten we eerst de in-context
leercapaciteit van Large Language Models (LLMs) om ongeveer 2M hoogwaardige
negatieve bijschriften te construeren over vijf typen. Vervolgens stellen we de
Image-Grounded Contrast (IGC) loss en Text-Grounded Contrast (TGC) loss voor om
visie-taal compositioneel te versterken. Uitgebreide experimentele resultaten
demonstreren de effectiviteit van het DeGLA framework. Vergeleken met eerdere
state-of-the-art methoden, behaalt DeGLA een gemiddelde verbetering van 3,5%
over de VALSE, SugarCrepe en ARO benchmarks. Tegelijkertijd behaalt het een
gemiddelde prestatieverbetering van 13,0% op zero-shot classificatietaken over
elf datasets. Onze code zal worden vrijgegeven op
https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary