Entkoppelte Global-Lokale Ausrichtung zur Verbesserung des kompositionellen Verständnisses

Zusammenfassung

Contrastive Language-Image Pre-training (CLIP) hat Erfolge bei mehreren Downstream-Aufgaben erzielt, indem es Bild- und Textmodalitäten ausgerichtet hat. Die Natur des globalen kontrastiven Lernens begrenzt jedoch CLIPs Fähigkeit, kompositionelle Konzepte wie Beziehungen und Attribute zu verstehen. Obwohl aktuelle Studien globale harte negative Beispiele verwenden, um das kompositionelle Verständnis zu verbessern, beeinträchtigen diese Methoden die inhärenten allgemeinen Fähigkeiten des Modells erheblich, indem sie textuelle negative Beispiele zwangsweise von Bildern im Einbettungsraum entfernen. Um diese Einschränkung zu überwinden, führen wir ein Decoupled Global-Local Alignment (DeGLA)-Framework ein, das das kompositionelle Verständnis verbessert und gleichzeitig Verluste bei den allgemeinen Fähigkeiten erheblich reduziert. Um die Beibehaltung der inhärenten Fähigkeiten des Modells zu optimieren, integrieren wir einen Selbst-Distillationsmechanismus in den globalen Ausrichtungsprozess, der den lernbaren Bild-Text-Encoder mit einem eingefrorenen Lehrermodell aus einem exponentiellen gleitenden Durchschnitt ausrichtet. Unter der Beschränkung der Selbst-Distillation mildert es effektiv das katastrophale Vergessen von vortrainiertem Wissen während des Feinabstimmens. Um das kompositionelle Verständnis zu verbessern, nutzen wir zunächst die In-Context-Lernfähigkeit von Large Language Models (LLMs), um etwa 2M hochwertige negative Bildunterschriften über fünf Typen hinweg zu konstruieren. Anschließend schlagen wir den Image-Grounded Contrast (IGC)-Verlust und den Text-Grounded Contrast (TGC)-Verlust vor, um die Vision-Sprache-Kompositionalität zu verbessern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit des DeGLA-Frameworks. Im Vergleich zu früheren State-of-the-Art-Methoden erreicht DeGLA eine durchschnittliche Verbesserung von 3,5 % über die VALSE-, SugarCrepe- und ARO-Benchmarks hinweg. Gleichzeitig erzielt es eine durchschnittliche Leistungssteigerung von 13,0 % bei Zero-Shot-Klassifikationsaufgaben über elf Datensätze hinweg. Unser Code wird unter https://github.com/xiaoxing2001/DeGLA veröffentlicht.

English

Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP's ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model's inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model's inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

Entkoppelte Global-Lokale Ausrichtung zur Verbesserung des kompositionellen Verständnisses

Decoupled Global-Local Alignment for Improving Compositional Understanding

Zusammenfassung

Summary

Support

Support