RaVL: Entdeckung und Minderung von irreführenden Korrelationen in feinabgestimmten Seh-Sprach-Modellen

Zusammenfassung

Feinabgestimmte Vision-Sprach-Modelle (VLMs) erfassen oft irreführende Korrelationen zwischen Bildmerkmalen und textuellen Attributen, was zu einer beeinträchtigten Nullschuss-Leistung zur Testzeit führt. Bestehende Ansätze zur Bewältigung irreführender Korrelationen (i) operieren hauptsächlich auf globaler Bild-Ebene anstatt direkt in feingranulierten Bildmerkmalen einzugreifen und (ii) sind hauptsächlich für unimodale Einstellungen konzipiert. In dieser Arbeit präsentieren wir RaVL, das eine feingranulierte Perspektive auf die Robustheit von VLMs einnimmt, indem es irreführende Korrelationen mithilfe lokaler Bildmerkmale entdeckt und abmildert, anstatt auf globaler Bildebene zu agieren. Unter Verwendung eines feinabgestimmten VLMs entdeckt RaVL zunächst irreführende Korrelationen, indem es einen regionsbasierten Clustering-Ansatz nutzt, um präzise Bildmerkmale zu identifizieren, die zu Fehlern bei der Nullschuss-Klassifizierung beitragen. Anschließend mildert RaVL die identifizierte irreführende Korrelation mit einer neuartigen regionsbewussten Verlustfunktion, die es dem VLM ermöglicht, sich während der Feinabstimmung auf relevante Regionen zu konzentrieren und irreführende Beziehungen zu ignorieren. Wir evaluieren RaVL an 654 VLMs mit verschiedenen Modellarchitekturen, Datenbereichen und erlernten irreführenden Korrelationen. Unsere Ergebnisse zeigen, dass RaVL irreführende Korrelationen präzise entdeckt (191% Verbesserung gegenüber der nächsten Basislinie) und mildert (8,2% Verbesserung bei der Klassifizierungsgenauigkeit von Bildern in der schlechtesten Gruppe). Qualitative Bewertungen an VLMs im Allgemeinbereich und im medizinischen Bereich bestätigen unsere Ergebnisse.

English

Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.

RaVL: Entdeckung und Minderung von irreführenden Korrelationen in feinabgestimmten Seh-Sprach-Modellen

RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models

Zusammenfassung

Summary

Support