미세 조정을 통한 신생 능력 예측
Predicting Emergent Capabilities by Finetuning
November 25, 2024
저자: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
초록
현대 LLM 확장에서의 근본적인 개방 도전 과제는 신흥 능력에 대한 부족한 이해입니다. 특히, 언어 모델 사전학습 손실은 계산의 함수로 매우 예측 가능하다는 것이 알려져 있습니다. 그러나 하류 능력은 훨씬 예측하기 어렵습니다. 때로는 신흥적인 점프조차 나타나기도 하는데, 이는 미래 모델의 능력을 예측하기 어렵게 만듭니다. 본 연구에서는 먼저 신흥 예측 작업을 제시합니다. 현재 무작위 소수점 정확도를 가진 LLM에 접근할 때, 미래 모델(GPT-N+1)이 해당 작업에서 비트 trivial 정확도를 가질지 예측할 수 있을까요? 그런 다음, 주어진 작업에 대해 LLM을 세밀 조정함으로써 신흥이 발생하는 지점을 덜 능력 있는 모델로 이동시킬 수 있는 간단한 통찰을 발견합니다. 이 통찰을 운영화하기 위해 데이터 양이 다른 LLM을 세밀 조정하고 신흥이 발생할 때를 예측하는 매개변수 함수를 맞출 수 있습니다("신흥 법칙"). 우리는 대형 오픈 소스 LLM이 이미 신흥을 보여주는 네 가지 표준 NLP 벤치마크(MMLU, GSM8K, CommonsenseQA, CoLA)를 사용하여 이 접근 방식을 검증합니다. 소규모 LLM만 사용하여, 경우에 따라 최대 4배 더 많은 계산으로 훈련된 모델이 신흥을 경험했는지 정확하게 예측할 수 있습니다. 마지막으로, 신흥 예측을 위한 두 가지 현실적인 사용 사례를 제시합니다.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary