RaVL : Découverte et atténuation des corrélations fallacieuses dans les modèles de vision-langage affinés.
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models
November 6, 2024
Auteurs: Maya Varma, Jean-Benoit Delbrouck, Zhihong Chen, Akshay Chaudhari, Curtis Langlotz
cs.AI
Résumé
Les modèles vision-langage affinés capturent souvent des corrélations fallacieuses entre les caractéristiques des images et les attributs textuels, ce qui entraîne une performance dégradée en zéro-shot lors des tests. Les approches existantes pour traiter les corrélations fallacieuses (i) opèrent principalement au niveau global de l'image plutôt que d'intervenir directement sur les caractéristiques fines de l'image et (ii) sont principalement conçues pour des configurations unimodales. Dans ce travail, nous présentons RaVL, qui adopte une perspective fine sur la robustesse des modèles vision-langage en découvrant et en atténuant les corrélations fallacieuses en utilisant les caractéristiques locales de l'image plutôt que d'opérer au niveau global de l'image. Étant donné un VLM affiné, RaVL découvre d'abord les corrélations fallacieuses en utilisant une approche de regroupement au niveau des régions pour identifier les caractéristiques précises de l'image contribuant aux erreurs de classification en zéro-shot. Ensuite, RaVL atténue la corrélation fallacieuse identifiée avec une nouvelle fonction de perte consciente des régions qui permet au VLM de se concentrer sur les régions pertinentes et d'ignorer les relations fallacieuses lors de l'affinage. Nous évaluons RaVL sur 654 VLM avec diverses architectures de modèles, domaines de données et corrélations fallacieuses apprises. Nos résultats montrent que RaVL découvre et atténue avec précision les corrélations fallacieuses (191 % d'amélioration par rapport à la base de référence la plus proche) et (8,2 % d'amélioration sur la précision de classification des images du pire groupe). Les évaluations qualitatives sur les VLM de domaine général et médical confirment nos résultats.
English
Fine-tuned vision-language models (VLMs) often capture spurious correlations
between image features and textual attributes, resulting in degraded zero-shot
performance at test time. Existing approaches for addressing spurious
correlations (i) primarily operate at the global image-level rather than
intervening directly on fine-grained image features and (ii) are predominantly
designed for unimodal settings. In this work, we present RaVL, which takes a
fine-grained perspective on VLM robustness by discovering and mitigating
spurious correlations using local image features rather than operating at the
global image level. Given a fine-tuned VLM, RaVL first discovers spurious
correlations by leveraging a region-level clustering approach to identify
precise image features contributing to zero-shot classification errors. Then,
RaVL mitigates the identified spurious correlation with a novel region-aware
loss function that enables the VLM to focus on relevant regions and ignore
spurious relationships during fine-tuning. We evaluate RaVL on 654 VLMs with
various model architectures, data domains, and learned spurious correlations.
Our results show that RaVL accurately discovers (191% improvement over the
closest baseline) and mitigates (8.2% improvement on worst-group image
classification accuracy) spurious correlations. Qualitative evaluations on
general-domain and medical-domain VLMs confirm our findings.Summary
AI-Generated Summary