ChatPaper.aiChatPaper

See-Saw-Modalitätsbalance: Sehen Sie den Gradienten und nähen Sie die beeinträchtigte Vision-Sprache-Balance, um die Dominanz der Modalitätsverzerrung zu mildern

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

March 18, 2025
Autoren: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI

Zusammenfassung

Vision-Language (VL)-Modelle haben in verschiedenen Aufgaben eine starke Leistung gezeigt. Diese Modelle verlassen sich jedoch oft auf eine bestimmte Modalität für Vorhersagen, was zu einem „Dominant Modality Bias“ führt. Diese Verzerrung beeinträchtigt die Leistung erheblich, insbesondere wenn eine Modalität beeinträchtigt ist. In dieser Studie analysieren wir das Modellverhalten unter Dominant Modality Bias und zeigen theoretisch, dass nicht ausgerichtete Gradienten oder Unterschiede in den Gradientenbeträgen ein ausgewogenes Konvergieren des Verlusts verhindern. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Framework, BalGrad, vor, um den Dominant Modality Bias zu mildern. Unser Ansatz umfasst eine intermodale Gradienten-Neugewichtung, eine Anpassung des Gradienten der KL-Divergenz basierend auf dem Beitrag jeder Modalität und eine intertask Gradientenprojektion, um Aufgabenrichtungen auf nicht konfliktäre Weise auszurichten. Experimente auf den Datensätzen UPMC Food-101, Hateful Memes und MM-IMDb bestätigen, dass BalGrad effektiv die übermäßige Abhängigkeit von bestimmten Modalitäten bei der Vorhersage reduziert.
English
Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Summary

AI-Generated Summary

PDF52March 21, 2025