ChatPaper.aiChatPaper

비평가-V: VLM 비평가가 다중 모달 추론에서 VLM 오류를 찾는 데 도움을 줍니다.

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

November 27, 2024
저자: Di Zhang, Jingdi Lei, Junxian Li, Xunzhi Wang, Yujie Liu, Zonglin Yang, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye, Wanli Ouyang, Dongzhan Zhou
cs.AI

초록

비전-언어 모델(VLMs)은 다중 모달 추론 작업에서 현저한 진전을 보여주었습니다. 그러나 여전히 환각된 이미지 이해나 정제되지 않은 추론 경로와 같은 문제로 인해 종종 부정확하거나 관련성이 없는 응답을 생성합니다. 이러한 도전에 대처하기 위해, 우리는 VLMs의 추론 능력을 향상시키기 위해 Actor-Critic 패러다임에서 영감을 받은 새로운 프레임워크인 Critic-V를 소개합니다. 이 프레임워크는 추론 프로세스와 비평 프로세스를 분리하여 시각적 및 텍스트 입력을 기반으로 추론 경로를 생성하는 Reasoner와 이러한 경로를 정제하기 위해 건설적 비평을 제공하는 Critic이라는 두 개의 독립적인 구성 요소를 통합함으로써 작동합니다. 이 접근 방식에서 Reasoner는 텍스트 프롬프트에 따라 추론 응답을 생성하며, Critic로부터의 피드백에 기반한 정책으로 반복적으로 진화할 수 있습니다. 이 상호 작용 프로세스는 Critic이 스칼라 보상 대신 자연어 비평을 제공함으로써 더 복잡한 추론 작업에서 Reasoner의 능력을 향상시키기 위한 보다 미묘한 피드백을 가능하게 하는 강화 학습 프레임워크에 이론적으로 기반합니다. Critic 모델은 직접 선호 최적화(DPO)를 사용하여 교훈 기능을 향상시키기 위해 규칙 기반 보상(RBR)에 의해 순위 매겨진 선호 데이터셋을 활용하여 훈련됩니다. 평가 결과는 Critic-V 프레임워크가 GPT-4V를 포함한 기존 방법들을 훨씬 능가한다는 것을 보여주며, 특히 추론 정확성과 효율성에 있어 8개 벤치마크 중 5개에서 우수한 성과를 보입니다. Reasoner를 위한 동적 텍스트 기반 정책과 선호도 최적화된 Critic로부터의 건설적 피드백을 결합함으로써 더 신뢰할 수 있고 맥락에 민감한 다중 모달 추론 프로세스를 가능하게 합니다. 우리의 접근 방식은 VLMs의 신뢰성을 향상시키는 유망한 해결책을 제공하며, 자율 주행 및 촉각 지능과 같은 실제 추론 중심의 다중 모달 응용 프로그램에서의 성능을 향상시킵니다.
English
Vision-language models~(VLMs) have shown remarkable advancements in multimodal reasoning tasks. However, they still often generate inaccurate or irrelevant responses due to issues like hallucinated image understandings or unrefined reasoning paths. To address these challenges, we introduce Critic-V, a novel framework inspired by the Actor-Critic paradigm to boost the reasoning capability of VLMs. This framework decouples the reasoning process and critic process by integrating two independent components: the Reasoner, which generates reasoning paths based on visual and textual inputs, and the Critic, which provides constructive critique to refine these paths. In this approach, the Reasoner generates reasoning responses according to text prompts, which can evolve iteratively as a policy based on feedback from the Critic. This interaction process was theoretically driven by a reinforcement learning framework where the Critic offers natural language critiques instead of scalar rewards, enabling more nuanced feedback to boost the Reasoner's capability on complex reasoning tasks. The Critic model is trained using Direct Preference Optimization (DPO), leveraging a preference dataset of critiques ranked by Rule-based Reward(RBR) to enhance its critic capabilities. Evaluation results show that the Critic-V framework significantly outperforms existing methods, including GPT-4V, on 5 out of 8 benchmarks, especially regarding reasoning accuracy and efficiency. Combining a dynamic text-based policy for the Reasoner and constructive feedback from the preference-optimized Critic enables a more reliable and context-sensitive multimodal reasoning process. Our approach provides a promising solution to enhance the reliability of VLMs, improving their performance in real-world reasoning-heavy multimodal applications such as autonomous driving and embodied intelligence.

Summary

AI-Generated Summary

PDF342November 29, 2024