SymDPO: Symbol Demonstration Direct Preference Optimization을 활용한 대규모 다중 모달 모델의 문맥 내 학습 강화

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

November 17, 2024
저자: Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

초록

언어 모델이 계속해서 확장되는 가운데, 대규모 언어 모델(Large Language Models, LLMs)은 문맥 내 학습(In-Context Learning, ICL)에서 부상하는 능력을 보여주었습니다. 이를 통해 몇 가지 문맥 내 시연(In-Context Demonstrations, ICDs)을 접두어로 사용하여 언어 작업을 해결할 수 있게 되었습니다. 이러한 발전을 영감으로, 연구자들은 이러한 기술을 확장하여 문맥 내 학습 능력을 갖춘 대규모 다중 모달 모델(Large Multimodal Models, LMMs)을 개발했습니다. 그러나 기존의 LMMs는 중요한 문제에 직면하고 있습니다: 종종 다중 모달 시연에서 시각적 문맥을 효과적으로 활용하지 못하고 텍스트 패턴을 단순히 따르는 것입니다. 이는 LMMs가 다중 모달 시연과 모델 출력 간 효과적인 정렬을 달성하지 못한다는 것을 나타냅니다. 이 문제를 해결하기 위해 우리는 Symbol Demonstration Direct Preference Optimization (SymDPO)을 제안합니다. 구체적으로, SymDPO는 다중 모달 시연을 구성하는 전통적 패러다임을 깨고, 인스턴스 내의 텍스트 답변을 대체하기 위해 무작위 기호를 사용합니다. 이를 통해 모델이 시연 이미지를 주의 깊게 이해하고, 이미지와 기호 간의 관계를 확립하여 질문에 올바르게 답변할 수 있도록 합니다. 우리는 이 방법의 효과를 여러 벤치마크에서 검증하여, SymDPO를 사용하면 LMMs가 예제 내 다중 모달 문맥을 더 효과적으로 이해하고, 이 지식을 활용하여 질문에 더 나은 답변을 할 수 있음을 입증합니다.
English
As language models continue to scale, Large Language Models (LLMs) have exhibited emerging capabilities in In-Context Learning (ICL), enabling them to solve language tasks by prefixing a few in-context demonstrations (ICDs) as context. Inspired by these advancements, researchers have extended these techniques to develop Large Multimodal Models (LMMs) with ICL capabilities. However, existing LMMs face a critical issue: they often fail to effectively leverage the visual context in multimodal demonstrations and instead simply follow textual patterns. This indicates that LMMs do not achieve effective alignment between multimodal demonstrations and model outputs. To address this problem, we propose Symbol Demonstration Direct Preference Optimization (SymDPO). Specifically, SymDPO aims to break the traditional paradigm of constructing multimodal demonstrations by using random symbols to replace text answers within instances. This forces the model to carefully understand the demonstration images and establish a relationship between the images and the symbols to answer questions correctly. We validate the effectiveness of this method on multiple benchmarks, demonstrating that with SymDPO, LMMs can more effectively understand the multimodal context within examples and utilize this knowledge to answer questions better.

Summary

AI-Generated Summary

PDF113November 21, 2024