시각 언어 모델의 사고 연쇄 추론 개선

Improve Vision Language Model Chain-of-thought Reasoning

October 21, 2024
저자: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang
cs.AI

초록

시각 언어 모델(VLM)에서의 사고 연쇄(Chain-of-thought, CoT) 추론은 해석 가능성과 신뢰성 향상에 중요합니다. 그러나 현재의 훈련 방법은 간단한 이유를 가진 짧은 주석으로 주도되는 데이터셋에 의존하여 견고한 CoT 추론 데이터가 부족합니다. 본 연구에서는 짧은 답변으로 VLM을 훈련시키는 것이 더 자세한 응답이 필요한 추론 작업에 일반화되지 않음을 보여줍니다. 이를 해결하기 위해 이중 접근법을 제안합니다. 먼저, GPT-4o 모델로부터 이유를 추출하여 훈련 데이터를 보강하고 VLM을 세밀하게 조정하여 CoT 성능을 향상시킵니다. 둘째, 강화 학습을 적용하여 추론 품질을 더 조정합니다. 구체적으로, 모델이 생성한 추론 사슬의 예측을 주석된 짧은 답변과 비교하여 올바른(positive) 및 부정확한(negative) 쌍을 구성합니다. 이 쌍별 데이터를 사용하여 직접 선호 최적화(Direct Preference Optimization) 알고리즘을 적용하여 모델의 추론 능력을 개선합니다. 실험 결과는 벤치마크 데이터셋에서 CoT 추론의 상당한 향상과 직접 답변 예측에 대한 더 나은 일반화를 보여줍니다. 본 연구는 훈련에 자세한 이유를 통합하고 강화 학습을 활용하여 VLM의 추론 능력을 강화하는 중요성을 강조합니다.
English
Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.

Summary

AI-Generated Summary

PDF172November 16, 2024