See-Saw-Modalitätsbalance: Sehen Sie den Gradienten und nähen Sie die beeinträchtigte Vision-Sprache-Balance, um die Dominanz der Modalitätsverzerrung zu mildern
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Autoren: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Zusammenfassung
Vision-Language (VL)-Modelle haben in verschiedenen Aufgaben eine starke Leistung gezeigt. Diese Modelle verlassen sich jedoch oft auf eine bestimmte Modalität für Vorhersagen, was zu einem „Dominant Modality Bias“ führt. Diese Verzerrung beeinträchtigt die Leistung erheblich, insbesondere wenn eine Modalität beeinträchtigt ist. In dieser Studie analysieren wir das Modellverhalten unter Dominant Modality Bias und zeigen theoretisch, dass nicht ausgerichtete Gradienten oder Unterschiede in den Gradientenbeträgen ein ausgewogenes Konvergieren des Verlusts verhindern. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Framework, BalGrad, vor, um den Dominant Modality Bias zu mildern. Unser Ansatz umfasst eine intermodale Gradienten-Neugewichtung, eine Anpassung des Gradienten der KL-Divergenz basierend auf dem Beitrag jeder Modalität und eine intertask Gradientenprojektion, um Aufgabenrichtungen auf nicht konfliktäre Weise auszurichten. Experimente auf den Datensätzen UPMC Food-101, Hateful Memes und MM-IMDb bestätigen, dass BalGrad effektiv die übermäßige Abhängigkeit von bestimmten Modalitäten bei der Vorhersage reduziert.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.Summary
AI-Generated Summary