Entkoppelte Global-Lokale Ausrichtung zur Verbesserung des kompositionellen Verständnisses
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Autoren: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Zusammenfassung
Contrastive Language-Image Pre-training (CLIP) hat Erfolge bei mehreren Downstream-Aufgaben erzielt, indem es Bild- und Textmodalitäten ausgerichtet hat. Die Natur des globalen kontrastiven Lernens begrenzt jedoch CLIPs Fähigkeit, kompositionelle Konzepte wie Beziehungen und Attribute zu verstehen. Obwohl aktuelle Studien globale harte negative Beispiele verwenden, um das kompositionelle Verständnis zu verbessern, beeinträchtigen diese Methoden die inhärenten allgemeinen Fähigkeiten des Modells erheblich, indem sie textuelle negative Beispiele zwangsweise von Bildern im Einbettungsraum entfernen. Um diese Einschränkung zu überwinden, führen wir ein Decoupled Global-Local Alignment (DeGLA)-Framework ein, das das kompositionelle Verständnis verbessert und gleichzeitig Verluste bei den allgemeinen Fähigkeiten erheblich reduziert. Um die Beibehaltung der inhärenten Fähigkeiten des Modells zu optimieren, integrieren wir einen Selbst-Distillationsmechanismus in den globalen Ausrichtungsprozess, der den lernbaren Bild-Text-Encoder mit einem eingefrorenen Lehrermodell aus einem exponentiellen gleitenden Durchschnitt ausrichtet. Unter der Beschränkung der Selbst-Distillation mildert es effektiv das katastrophale Vergessen von vortrainiertem Wissen während des Feinabstimmens. Um das kompositionelle Verständnis zu verbessern, nutzen wir zunächst die In-Context-Lernfähigkeit von Large Language Models (LLMs), um etwa 2M hochwertige negative Bildunterschriften über fünf Typen hinweg zu konstruieren. Anschließend schlagen wir den Image-Grounded Contrast (IGC)-Verlust und den Text-Grounded Contrast (TGC)-Verlust vor, um die Vision-Sprache-Kompositionalität zu verbessern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit des DeGLA-Frameworks. Im Vergleich zu früheren State-of-the-Art-Methoden erreicht DeGLA eine durchschnittliche Verbesserung von 3,5 % über die VALSE-, SugarCrepe- und ARO-Benchmarks hinweg. Gleichzeitig erzielt es eine durchschnittliche Leistungssteigerung von 13,0 % bei Zero-Shot-Klassifikationsaufgaben über elf Datensätze hinweg. Unser Code wird unter https://github.com/xiaoxing2001/DeGLA veröffentlicht.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary