ChatPaper.aiChatPaper

시각 가치 모델을 활용한 추론 시간 검색 확장을 통한 시각 이해 개선

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

December 4, 2024
저자: Wang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan
cs.AI

초록

시각-언어 모델(VLMs)의 중요한 발전에도 불구하고, 추론 시간 계산을 확장하여 응답 품질을 향상시키는 효과적인 방법이 부족합니다. 이 능력은 최근 대규모 언어 모델 연구에서 자가 개선 모델로 나아가는 핵심 단계로 알려져 있습니다. 본 논문에서는 시각 가치 모델(VisVM)을 제시하여 VLM 추론 시간 검색을 이끌어 시각적 이해를 더 잘할 수 있는 응답을 생성할 수 있습니다. 구체적으로, VisVM은 현재 검색 단계에서 생성된 문장 품질을 평가하는 것뿐만 아니라 현재 단계에서 발생할 수 있는 후속 문장의 품질을 예측하여 장기적 가치를 제공합니다. 이러한 방식으로 VisVM은 환각이나 불충분한 세부 사항에 취약한 문장을 생성하는 VLMs를 피하도록 유도하여 더 높은 품질의 응답을 생성합니다. 실험 결과는 VisVM으로 이끄는 검색이 탐욕적 디코딩 및 다른 시각적 보상 신호를 사용한 검색 방법과 비교하여 더 풍부한 시각적 세부 사항과 더 적은 환각을 가진 기술적 설명을 생성하는 능력을 VLMs가 크게 향상시킨다는 것을 보여줍니다. 더 나아가, VisVM으로 이끄는 캡션으로 모델을 자가 교육하는 것이 다양한 다중 모달 벤치마크에서 VLM의 성능을 향상시키는 것을 발견하며, 자가 개선 VLMs를 개발할 수 있는 잠재력을 보여줍니다. 저희 가치 모델과 코드는 https://github.com/si0wang/VisVM에서 확인하실 수 있습니다.
English
Despite significant advancements in vision-language models (VLMs), there lacks effective approaches to enhance response quality by scaling inference-time computation. This capability is known to be a core step towards the self-improving models in recent large language model studies. In this paper, we present Vision Value Model (VisVM) that can guide VLM inference-time search to generate responses with better visual comprehension. Specifically, VisVM not only evaluates the generated sentence quality in the current search step, but also anticipates the quality of subsequent sentences that may result from the current step, thus providing a long-term value. In this way, VisVM steers VLMs away from generating sentences prone to hallucinations or insufficient detail, thereby producing higher quality responses. Experimental results demonstrate that VisVM-guided search significantly enhances VLMs' ability to generate descriptive captions with richer visual details and fewer hallucinations, compared with greedy decoding and search methods with other visual reward signals. Furthermore, we find that self-training the model with the VisVM-guided captions improve VLM's performance across a wide range of multimodal benchmarks, indicating the potential for developing self-improving VLMs. Our value model and code are available at https://github.com/si0wang/VisVM.

Summary

AI-Generated Summary

PDF72December 6, 2024