Geração Automatizada de Perguntas de Múltipla Escolha Desafiadoras para Avaliação de Modelos de Visão e Linguagem
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Autores: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Resumo
O rápido desenvolvimento de modelos de linguagem visual (VLMs) exige uma avaliação rigorosa e confiável. No entanto, os benchmarks atuais de perguntas e respostas visuais (VQA) frequentemente dependem de perguntas abertas, tornando a avaliação precisa difícil devido à variabilidade nas respostas em linguagem natural. Para lidar com isso, apresentamos o AutoConverter, um framework agente que converte automaticamente essas perguntas abertas em formato de múltipla escolha, possibilitando uma avaliação objetiva e reduzindo o custoso processo de criação de perguntas. Nossos experimentos demonstram que o AutoConverter pode gerar perguntas de múltipla escolha corretas e desafiadoras, com os VLMs apresentando consistentemente uma precisão similar ou inferior nessas perguntas em comparação com as criadas por humanos. Utilizando o AutoConverter, construímos o VMCBench, um benchmark criado ao transformar 20 conjuntos de dados existentes de VQA em um formato unificado de múltipla escolha, totalizando 9.018 perguntas. Avaliamos de forma abrangente 33 VLMs de ponta no VMCBench, estabelecendo um novo padrão para avaliação escalável, consistente e reproduzível de VLMs.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary