Classifiche affidabili, riproducibili e molto veloci con Evalica

Abstract

L'avanzamento rapido delle tecnologie di elaborazione del linguaggio naturale (NLP), come i modelli linguistici di grandi dimensioni (LLM) addestrati per specifiche istruzioni, spinge allo sviluppo di protocolli di valutazione moderni con feedback umani e automatici. Presentiamo Evalica, un toolkit open-source che facilita la creazione di graduatorie di modelli affidabili e riproducibili. Questo articolo ne illustra il design, valuta le sue prestazioni e ne dimostra l'usabilità attraverso la sua interfaccia Web, interfaccia a riga di comando e API Python.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.

Classifiche affidabili, riproducibili e molto veloci con Evalica

Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Abstract

Summary

Support