BenTo: Benchmark Taakvermindering met In-Context Overdraagbaarheid
BenTo: Benchmark Task Reduction with In-Context Transferability
October 17, 2024
Auteurs: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI
Samenvatting
Het evalueren van grote taalmodellen (LLM's) is kostbaar: het vereist het genereren en onderzoeken van LLM-uitvoer op een grootschalige benchmark van verschillende taken. Dit artikel onderzoekt hoe taken efficiënt kunnen worden verminderd die worden gebruikt om LLM's te benchmarken zonder de kwaliteit van de evaluatie te beïnvloeden. Onze studie onthult dat taakoverdraagbaarheid en relevantie cruciale informatie bieden om de meest representatieve subset van taken te identificeren door middel van het optimaliseren van een faciliteitslocatiefunctie. We stellen een praktisch efficiënte maat voor om de overdraagbaarheid tussen twee taken te schatten via in-context leren (ICL). Door de pairwise overdraagbaarheid te analyseren, kunnen we taken verminderen in een modern LLM-benchmark (bijv. MMLU of FLAN) tot 5% met slechts een <4% verschil in de evaluatie ten opzichte van de oorspronkelijke benchmark. In vergelijking met eerdere werken is onze methode trainingvrij, gradiëntvrij en zeer efficiënt, waarbij alleen ICL nodig is.
English
Evaluating large language models (LLMs) is costly: it requires the generation
and examination of LLM outputs on a large-scale benchmark of various tasks.
This paper investigates how to efficiently reduce the tasks used to benchmark
LLMs without affecting the evaluation quality. Our study reveals that task
transferability and relevance provide critical information to identify the most
representative subset of tasks via optimizing a facility location function. We
propose a practically efficient metric for estimating the transferability
between two tasks via in-context learning (ICL). By analyzing the pairwise
transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or
FLAN) to 5% while inducing only a <4% difference to the evaluation on the
original benchmark. Compared to prior works, our method is training-free,
gradient-free, and highly efficient requiring ICL only.Summary
AI-Generated Summary