KOFFVQA: Un Benchmark VQA a Risposta Libera Valutato Oggettivamente per Grandi Modelli Visione-Linguaggio nella Lingua Coreana
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Autori: Yoonshik Kim, Jaeyoon Jung
cs.AI
Abstract
La recente comparsa dei Large Vision-Language Models (VLMs) ha portato alla creazione di una varietà di benchmark diversi per valutare tali modelli. Nonostante ciò, osserviamo che la maggior parte dei metodi di valutazione esistenti soffre del fatto che richiedono al modello di scegliere tra risposte predefinite, sacrificando l'apertura, oppure valutano le risposte utilizzando un modello giudice, risultando in una valutazione soggettiva e inaffidabile. Inoltre, notiamo una mancanza di benchmark per i VLMs nella lingua coreana, che sono necessari come metrica separata rispetto ai più comuni benchmark in lingua inglese, poiché le prestazioni dei modelli generativi di linguaggio possono differire significativamente in base alla lingua utilizzata. Pertanto, presentiamo KOFFVQA, un benchmark general-purpose di risposta libera a domande visive in lingua coreana per la valutazione dei VLMs. Il nostro benchmark è composto da 275 domande accuratamente progettate, ciascuna associata a un'immagine e a criteri di valutazione che coprono 10 diversi aspetti delle prestazioni dei VLMs. I criteri di valutazione eliminano il problema dell'inaffidabilità consentendo al modello giudice di valutare ciascuna risposta in base a un insieme predefinito di regole. Definendo i criteri di valutazione in modo oggettivo, anche un piccolo modello open-source può essere utilizzato per valutare i modelli sul nostro benchmark in modo affidabile. Oltre a valutare un gran numero di VLMs esistenti sul nostro benchmark, verifichiamo sperimentalmente che il nostro metodo di utilizzo di criteri di valutazione preesistenti è molto più affidabile rispetto ai metodi esistenti. Il nostro codice di valutazione è disponibile all'indirizzo https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary