시각 언어 모델 평가를 위한 어려운 객관식 문제 자동 생성
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
저자: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
초록
시각 언어 모델(VLMs)의 신속한 발전은 엄격하고 신뢰할 수 있는 평가를 요구한다. 그러나 현재의 시각 질문 응답(VQA) 벤치마크는 종종 개방형 질문에 의존하며, 자연어 응답의 다양성으로 인해 정확한 평가가 어려워진다. 이를 해결하기 위해 우리는 AutoConverter를 소개한다. 이는 개방형 질문을 자동으로 객관식 형식으로 변환하여 객관적인 평가를 가능하게 하며, 비용이 많이 드는 질문 작성 과정을 줄인다. 우리의 실험 결과 AutoConverter는 정확하고 도전적인 객관식 질문을 생성할 수 있으며, VLMs는 이러한 질문에 대해 인간이 작성한 것과 비교하여 일관되게 유사하거나 낮은 정확도를 보여준다. AutoConverter를 사용하여 우리는 20개의 기존 VQA 데이터셋을 통합된 객관식 형식으로 변환하여 총 9,018개의 질문을 포함하는 VMCBench를 구축한다. 우리는 VMCBench에서 33개의 최첨단 VLMs를 철저하게 평가하여 확장 가능하고 일관되며 재현 가능한 VLM 평가의 새로운 기준을 설정한다.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary