RaVL: Entdeckung und Minderung von irreführenden Korrelationen in feinabgestimmten Seh-Sprach-Modellen
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
November 6, 2024
Autoren: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz
cs.AI
Zusammenfassung
Feinabgestimmte Vision-Sprach-Modelle (VLMs) erfassen oft irreführende Korrelationen zwischen Bildmerkmalen und textuellen Attributen, was zu einer beeinträchtigten Nullschuss-Leistung zur Testzeit führt. Bestehende Ansätze zur Bewältigung irreführender Korrelationen (i) operieren hauptsächlich auf globaler Bild-Ebene anstatt direkt in feingranulierten Bildmerkmalen einzugreifen und (ii) sind hauptsächlich für unimodale Einstellungen konzipiert. In dieser Arbeit präsentieren wir RaVL, das eine feingranulierte Perspektive auf die Robustheit von VLMs einnimmt, indem es irreführende Korrelationen mithilfe lokaler Bildmerkmale entdeckt und abmildert, anstatt auf globaler Bildebene zu agieren. Unter Verwendung eines feinabgestimmten VLMs entdeckt RaVL zunächst irreführende Korrelationen, indem es einen regionsbasierten Clustering-Ansatz nutzt, um präzise Bildmerkmale zu identifizieren, die zu Fehlern bei der Nullschuss-Klassifizierung beitragen. Anschließend mildert RaVL die identifizierte irreführende Korrelation mit einer neuartigen regionsbewussten Verlustfunktion, die es dem VLM ermöglicht, sich während der Feinabstimmung auf relevante Regionen zu konzentrieren und irreführende Beziehungen zu ignorieren. Wir evaluieren RaVL an 654 VLMs mit verschiedenen Modellarchitekturen, Datenbereichen und erlernten irreführenden Korrelationen. Unsere Ergebnisse zeigen, dass RaVL irreführende Korrelationen präzise entdeckt (191% Verbesserung gegenüber der nächsten Basislinie) und mildert (8,2% Verbesserung bei der Klassifizierungsgenauigkeit von Bildern in der schlechtesten Gruppe). Qualitative Bewertungen an VLMs im Allgemeinbereich und im medizinischen Bereich bestätigen unsere Ergebnisse.
English
Fine-tuned vision-language models (VLMs) often capture spurious correlations
between image features and textual attributes, resulting in degraded zero-shot
performance at test time. Existing approaches for addressing spurious
correlations (i) primarily operate at the global image-level rather than
intervening directly on fine-grained image features and (ii) are predominantly
designed for unimodal settings. In this work, we present RaVL, which takes a
fine-grained perspective on VLM robustness by discovering and mitigating
spurious correlations using local image features rather than operating at the
global image level. Given a fine-tuned VLM, RaVL first discovers spurious
correlations by leveraging a region-level clustering approach to identify
precise image features contributing to zero-shot classification errors. Then,
RaVL mitigates the identified spurious correlation with a novel region-aware
loss function that enables the VLM to focus on relevant regions and ignore
spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with
various model architectures, data domains, and learned spurious correlations.
Our results show that RaVL accurately discovers (191% improvement over the
closest baseline) and mitigates (8.2% improvement on worst-group image
classification accuracy) spurious correlations. Qualitative evaluations on
general-domain and medical-domain VLMs confirm our findings.Summary
AI-Generated Summary