Classifiche affidabili, riproducibili e molto veloci con Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Autori: Dmitry Ustalov
cs.AI
Abstract
L'avanzamento rapido delle tecnologie di elaborazione del linguaggio naturale (NLP), come i modelli linguistici di grandi dimensioni (LLM) addestrati per specifiche istruzioni, spinge allo sviluppo di protocolli di valutazione moderni con feedback umani e automatici. Presentiamo Evalica, un toolkit open-source che facilita la creazione di graduatorie di modelli affidabili e riproducibili. Questo articolo ne illustra il design, valuta le sue prestazioni e ne dimostra l'usabilità attraverso la sua interfaccia Web, interfaccia a riga di comando e API Python.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary