ONEBench per testarli tutti: Benchmarking a livello di campione sulle capacità aperte-ended.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
December 9, 2024
Autori: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI
Abstract
I tradizionali set di test fissi risultano limitati nell'valutare le capacità aperte dei modelli fondamentali. Per affrontare questo problema, proponiamo ONEBench (OpeN-Ended Benchmarking), un nuovo paradigma di test che unisce i singoli set di valutazione in un unico e in continua espansione pool di campioni. ONEBench consente agli utenti di generare benchmark personalizzati e aperti da questo pool, corrispondenti a specifiche capacità di interesse. Aggregando campioni tra i set di test, ONEBench permette la valutazione di capacità diverse oltre a quelle coperte dai set di test originali, mitigando l'overfitting e il bias del dataset. Inoltre, esso concepisce la valutazione del modello come un processo collettivo di selezione e aggregazione di test a livello di campione.
Il passaggio dai benchmark specifici per compiti a ONEBench introduce due sfide: (1) l'eterogeneità e (2) l'incompletezza. L'eterogeneità si riferisce all'aggregazione su metriche diverse, mentre l'incompletezza descrive il confronto tra modelli valutati su diversi sottoinsiemi di dati. Per affrontare queste sfide, esploriamo algoritmi per aggregare misurazioni sparse in punteggi affidabili del modello. Il nostro algoritmo di aggregazione garantisce l'identificabilità (recupero asintotico dei punteggi reali) e una rapida convergenza, consentendo una classifica accurata dei modelli con meno dati. Su dataset omogenei, dimostriamo che il nostro algoritmo di aggregazione fornisce classifiche altamente correlate con quelle prodotte dai punteggi medi. Dimostriamo anche la robustezza a circa il 95% delle misurazioni mancanti, riducendo i costi di valutazione fino a 20 volte con poche o nessuna variazione nelle classifiche dei modelli. Presentiamo ONEBench-LLM per i modelli linguistici e ONEBench-LMM per i modelli visione-linguaggio, unificando le valutazioni in questi ambiti. In generale, presentiamo una tecnica per la valutazione aperta, che può aggregare misurazioni eterogenee e incomplete a livello di campione per far crescere continuamente un benchmark insieme ai modelli fondamentali in rapida evoluzione.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities
of foundation models. To address this, we propose ONEBench(OpeN-Ended
Benchmarking), a new testing paradigm that consolidates individual evaluation
datasets into a unified, ever-expanding sample pool. ONEBench allows users to
generate custom, open-ended evaluation benchmarks from this pool, corresponding
to specific capabilities of interest. By aggregating samples across test sets,
ONEBench enables the assessment of diverse capabilities beyond those covered by
the original test sets, while mitigating overfitting and dataset bias. Most
importantly, it frames model evaluation as a collective process of selecting
and aggregating sample-level tests.
The shift from task-specific benchmarks to ONEBench introduces two
challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the
aggregation over diverse metrics, while incompleteness describes comparing
models evaluated on different data subsets. To address these challenges, we
explore algorithms to aggregate sparse measurements into reliable model scores.
Our aggregation algorithm ensures identifiability(asymptotically recovering
ground-truth scores) and rapid convergence, enabling accurate model ranking
with less data. On homogenous datasets, we show our aggregation algorithm
provides rankings that highly correlate with those produced by average scores.
We also demonstrate robustness to ~95% of measurements missing, reducing
evaluation cost by up to 20x with little-to-no change in model rankings. We
introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language
models, unifying evaluations across these domains. Overall, we present a
technique for open-ended evaluation, which can aggregate over incomplete,
heterogeneous sample-level measurements to continually grow a benchmark
alongside the rapidly developing foundation models.Summary
AI-Generated Summary