Caso você tenha perdido: O Desafio ARC não é tão desafiador
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Autores: Łukasz Borchmann
cs.AI
Resumo
O desafio ARC parece ser mais difícil do que o ARC Fácil para os LLMs modernos, principalmente devido a uma configuração de avaliação que impede a comparação direta das escolhas de resposta, em vez de uma complexidade inerente. Embora alguns pesquisadores tenham silenciosamente migrado para um esquema mais apropriado ao longo do último ano, as implicações dessa mudança ainda não foram amplamente reconhecidas. Destacamos essa mudança negligenciada, mostramos como práticas de avaliação semelhantes implicam falsamente em déficits de raciocínio em outros benchmarks e demonstramos que métodos mais justos reduzem drasticamente as lacunas de desempenho (por exemplo, no SIQA) e até mesmo produzem resultados super-humanos (OpenBookQA). Ao fazer isso, revelamos como a avaliação molda a dificuldade percebida e oferecemos diretrizes para garantir que avaliações de múltipla escolha reflitam com precisão as capacidades reais do modelo.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary