Generazione automatica di domande a scelta multipla impegnative per la valutazione dei modelli di visione e linguaggio.

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

January 6, 2025
Autori: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI

Abstract

Lo sviluppo rapido dei modelli di linguaggio visivo (VLM) richiede una valutazione rigorosa e affidabile. Tuttavia, attualmente i benchmark di domande visive e risposte (VQA) dipendono spesso da domande aperte, rendendo difficile una valutazione accurata a causa della variabilità nelle risposte in linguaggio naturale. Per affrontare questo problema, presentiamo AutoConverter, un framework agente che converte automaticamente queste domande aperte in formato a scelta multipla, consentendo una valutazione oggettiva e riducendo il costoso processo di creazione delle domande. I nostri esperimenti dimostrano che AutoConverter può generare domande a scelta multipla corrette e impegnative, con i VLM che mostrano una precisione costantemente simile o inferiore su queste domande rispetto a quelle create dall'uomo. Utilizzando AutoConverter, costruiamo VMCBench, un benchmark creato trasformando 20 dataset esistenti di VQA in un formato unificato a scelta multipla, per un totale di 9.018 domande. Valutiamo in modo esaustivo 33 VLM all'avanguardia su VMCBench, stabilendo un nuovo standard per la valutazione scalabile, coerente e riproducibile dei VLM.
English
The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.

Summary

AI-Generated Summary

PDF72January 7, 2025