BenTo: 맥락 전이를 통한 벤치마크 과제 축소

BenTo: Benchmark Task Reduction with In-Context Transferability

October 17, 2024
저자: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

초록

대형 언어 모델 (LLM)을 평가하는 것은 비용이 많이 드는 작업입니다: 다양한 작업의 대규모 벤치마크에서 LLM 출력물을 생성하고 검토해야 합니다. 본 논문은 LLM 벤치마크에 사용되는 작업을 효율적으로 줄이면서 평가 품질에 영향을 미치지 않는 방법에 대해 조사합니다. 우리의 연구는 작업 전이성과 관련성이 가장 대표적인 작업 하위 집합을 식별하는 데 중요한 정보를 제공함을 밝혀냅니다. 우리는 시설 위치 함수를 최적화함으로써 작업을 효율적으로 줄이는 방법을 제안합니다. 두 작업 간의 전이성을 추정하기 위한 실용적으로 효율적인 측정 항목을 제안합니다. 이를 위해 인-컨텍스트 학습 (ICL)을 사용합니다. 쌍별 전이성을 분석함으로써 현대 LLM 벤치마크 (예: MMLU 또는 FLAN)의 작업을 5%로 줄일 수 있으며 원래 벤치마크의 평가에 <4%의 차이만 유발합니다. 이전 연구와 비교했을 때, 우리의 방법은 훈련이 필요 없으며 그라디언트가 없으며 ICL만 필요한 매우 효율적인 방법입니다.
English
Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.

Summary

AI-Generated Summary

PDF193November 16, 2024