ChatPaper.aiChatPaper

YourBench: Set di Valutazione Personalizzati Semplici per Tutti

YourBench: Easy Custom Evaluation Sets for Everyone

April 2, 2025
Autori: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI

Abstract

Valutare efficacemente i grandi modelli linguistici (LLM) rimane un collo di bottiglia critico, poiché i benchmark statici tradizionali soffrono di saturazione e contaminazione, mentre le valutazioni umane sono costose e lente. Ciò ostacola valutazioni tempestive o specifiche per dominio, cruciali per applicazioni nel mondo reale. Introduciamo YourBench, un nuovo framework open-source che affronta queste limitazioni consentendo la generazione dinamica e automatizzata di benchmark affidabili, aggiornati e personalizzati per dominio in modo economico e senza annotazione manuale, direttamente da documenti forniti dall'utente. Ne dimostriamo l'efficacia replicando 7 sottoinsiemi diversi di MMLU utilizzando un testo sorgente minimo, raggiungendo questo obiettivo con un costo totale di inferenza inferiore a 15 USD, preservando perfettamente le classifiche relative delle prestazioni dei modelli (Spearman Rho = 1) osservate sul benchmark originale. Per garantire che YourBench generi dati basati sugli input forniti invece di affidarsi a conoscenze parametriche posteriori nei modelli, introduciamo anche Tempora-0325, un nuovo dataset di oltre 7K documenti diversi, pubblicati esclusivamente dopo marzo 2025. La nostra analisi completa copre 26 modelli SoTA di 7 famiglie principali su varie scale (3-671B parametri) per convalidare la qualità delle valutazioni generate attraverso controlli algoritmici rigorosi (ad esempio, grounding delle citazioni) e valutazioni umane. Rilasciamo la libreria YourBench, il dataset Tempora-0325, oltre 150k coppie domanda-risposta basate su Tempora e tutte le tracce di valutazione e inferenza per facilitare la ricerca riproducibile e consentire alla comunità di generare benchmark su misura su richiesta, promuovendo una valutazione dei LLM più rilevante e affidabile.
English
Evaluating large language models (LLMs) effectively remains a critical bottleneck, as traditional static benchmarks suffer from saturation and contamination, while human evaluations are costly and slow. This hinders timely or domain-specific assessment, crucial for real-world applications. We introduce YourBench, a novel, open-source framework that addresses these limitations by enabling dynamic, automated generation of reliable, up-to-date, and domain-tailored benchmarks cheaply and without manual annotation, directly from user-provided documents. We demonstrate its efficacy by replicating 7 diverse MMLU subsets using minimal source text, achieving this for under 15 USD in total inference costs while perfectly preserving the relative model performance rankings (Spearman Rho = 1) observed on the original benchmark. To ensure that YourBench generates data grounded in provided input instead of relying on posterior parametric knowledge in models, we also introduce Tempora-0325, a novel dataset of over 7K diverse documents, published exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models from 7 major families across varying scales (3-671B parameters) to validate the quality of generated evaluations through rigorous algorithmic checks (e.g., citation grounding) and human assessments. We release the YourBench library, the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all evaluation and inference traces to facilitate reproducible research and empower the community to generate bespoke benchmarks on demand, fostering more relevant and trustworthy LLM evaluation.

Summary

AI-Generated Summary

PDF203April 3, 2025