RaVL: Het Ontdekken en Verminderen van Spurieuze Correlaties in Fijnafgestemde Visie-Taal Modellen

Samenvatting

Fijnafgestemde visie-taalmodellen (VLM's) leggen vaak onbedoelde correlaties vast tussen beeldkenmerken en tekstuele eigenschappen, wat resulteert in verminderde zero-shot prestaties tijdens de testfase. Bestaande benaderingen om onbedoelde correlaties aan te pakken (i) werken voornamelijk op het globale beeldniveau in plaats van direct in te grijpen op fijnkorrelige beeldkenmerken en (ii) zijn voornamelijk ontworpen voor unimodale instellingen. In dit werk presenteren we RaVL, dat een fijnkorrelig perspectief biedt op de robuustheid van VLM's door onbedoelde correlaties te ontdekken en te verminderen met behulp van lokale beeldkenmerken in plaats van te werken op het globale beeldniveau. Gegeven een fijnafgestemd VLM, ontdekt RaVL eerst onbedoelde correlaties door gebruik te maken van een regionaal clusteringbenadering om precieze beeldkenmerken te identificeren die bijdragen aan zero-shot classificatiefouten. Vervolgens vermindert RaVL de geïdentificeerde onbedoelde correlatie met een nieuw regiobewust verliesfunctie die het VLM in staat stelt zich te richten op relevante regio's en onbedoelde relaties te negeren tijdens het fijnafstemmen. We evalueren RaVL op 654 VLM's met verschillende modelarchitecturen, gegevensdomeinen en geleerde onbedoelde correlaties. Onze resultaten tonen aan dat RaVL nauwkeurig onbedoelde correlaties ontdekt (191% verbetering ten opzichte van de dichtstbijzijnde basislijn) en vermindert (8,2% verbetering in de classificatienauwkeurigheid van de slechtste groepsafbeelding). Kwalitatieve evaluaties op VLM's in algemene en medische domeinen bevestigen onze bevindingen.

English

Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.

RaVL: Het Ontdekken en Verminderen van Spurieuze Correlaties in Fijnafgestemde Visie-Taal Modellen

RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models

Samenvatting

Support