Se te lo sei perso: la sfida ARC non è così impegnativa.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Autori: Łukasz Borchmann
cs.AI
Abstract
La sfida ARC sembra essere più difficile della versione ARC Easy per i moderni LLM principalmente a causa di un setup di valutazione che impedisce il confronto diretto delle scelte di risposta piuttosto che per complessità intrinseca. Sebbene alcuni ricercatori abbiano silenziosamente adottato uno schema più appropriato nell'ultimo anno, le implicazioni di questo cambiamento devono ancora essere ampiamente riconosciute. Mettiamo in evidenza questo cambiamento trascurato, mostriamo come pratiche di valutazione simili implicano erroneamente deficit di ragionamento in altri benchmark e dimostriamo che metodi più equi riducono drasticamente i divari di prestazioni (ad es. su SIQA) e possono persino produrre risultati sovrumani (OpenBookQA). In tal modo, riveliamo come la valutazione plasmi la percezione della difficoltà e offriamo linee guida per garantire che le valutazioni a scelta multipla riflettano accuratamente le reali capacità del modello.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary