Generazione automatica di domande a scelta multipla impegnative per la valutazione dei modelli di visione e linguaggio.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Autori: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Abstract
Lo sviluppo rapido dei modelli di linguaggio visivo (VLM) richiede una valutazione rigorosa e affidabile. Tuttavia, attualmente i benchmark di domande visive e risposte (VQA) dipendono spesso da domande aperte, rendendo difficile una valutazione accurata a causa della variabilità nelle risposte in linguaggio naturale. Per affrontare questo problema, presentiamo AutoConverter, un framework agente che converte automaticamente queste domande aperte in formato a scelta multipla, consentendo una valutazione oggettiva e riducendo il costoso processo di creazione delle domande. I nostri esperimenti dimostrano che AutoConverter può generare domande a scelta multipla corrette e impegnative, con i VLM che mostrano una precisione costantemente simile o inferiore su queste domande rispetto a quelle create dall'uomo. Utilizzando AutoConverter, costruiamo VMCBench, un benchmark creato trasformando 20 dataset esistenti di VQA in un formato unificato a scelta multipla, per un totale di 9.018 domande. Valutiamo in modo esaustivo 33 VLM all'avanguardia su VMCBench, stabilendo un nuovo standard per la valutazione scalabile, coerente e riproducibile dei VLM.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary