RaVL : Découverte et atténuation des corrélations fallacieuses dans les modèles de vision-langage affinés.

Résumé

Les modèles vision-langage affinés capturent souvent des corrélations fallacieuses entre les caractéristiques des images et les attributs textuels, ce qui entraîne une performance dégradée en zéro-shot lors des tests. Les approches existantes pour traiter les corrélations fallacieuses (i) opèrent principalement au niveau global de l'image plutôt que d'intervenir directement sur les caractéristiques fines de l'image et (ii) sont principalement conçues pour des configurations unimodales. Dans ce travail, nous présentons RaVL, qui adopte une perspective fine sur la robustesse des modèles vision-langage en découvrant et en atténuant les corrélations fallacieuses en utilisant les caractéristiques locales de l'image plutôt que d'opérer au niveau global de l'image. Étant donné un VLM affiné, RaVL découvre d'abord les corrélations fallacieuses en utilisant une approche de regroupement au niveau des régions pour identifier les caractéristiques précises de l'image contribuant aux erreurs de classification en zéro-shot. Ensuite, RaVL atténue la corrélation fallacieuse identifiée avec une nouvelle fonction de perte consciente des régions qui permet au VLM de se concentrer sur les régions pertinentes et d'ignorer les relations fallacieuses lors de l'affinage. Nous évaluons RaVL sur 654 VLM avec diverses architectures de modèles, domaines de données et corrélations fallacieuses apprises. Nos résultats montrent que RaVL découvre et atténue avec précision les corrélations fallacieuses (191 % d'amélioration par rapport à la base de référence la plus proche) et (8,2 % d'amélioration sur la précision de classification des images du pire groupe). Les évaluations qualitatives sur les VLM de domaine général et médical confirment nos résultats.

English

Fine-tuned vision-language models (VLMs) often capture spurious correlations between image features and textual attributes, resulting in degraded zero-shot performance at test time. Existing approaches for addressing spurious correlations (i) primarily operate at the global image-level rather than intervening directly on fine-grained image features and (ii) are predominantly designed for unimodal settings. In this work, we present RaVL, which takes a fine-grained perspective on VLM robustness by discovering and mitigating spurious correlations using local image features rather than operating at the global image level. Given a fine-tuned VLM, RaVL first discovers spurious correlations by leveraging a region-level clustering approach to identify precise image features contributing to zero-shot classification errors. Then, RaVL mitigates the identified spurious correlation with a novel region-aware loss function that enables the VLM to focus on relevant regions and ignore spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with various model architectures, data domains, and learned spurious correlations. Our results show that RaVL accurately discovers (191% improvement over the closest baseline) and mitigates (8.2% improvement on worst-group image classification accuracy) spurious correlations. Qualitative evaluations on general-domain and medical-domain VLMs confirm our findings.

RaVL : Découverte et atténuation des corrélations fallacieuses dans les modèles de vision-langage affinés.

RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models

Résumé

Support