Prevedere le Capacità Emergenti tramite il Finetuning
Predicting Emergent Capabilities by Finetuning
November 25, 2024
Autori: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
Abstract
Una sfida aperta fondamentale nello scaling moderno dei LLM è la mancanza di comprensione delle capacità emergenti. In particolare, si sa che la perdita di preaddestramento del modello linguistico è altamente prevedibile come funzione del calcolo. Tuttavia, le capacità derivate sono molto meno prevedibili - a volte mostrano addirittura salti emergenti - il che rende difficile anticipare le capacità dei modelli futuri. In questo lavoro, poniamo innanzitutto il compito della previsione dell'emergenza: avendo accesso ai LLM attuali che hanno un'accuratezza casuale a pochi colpi su un compito, possiamo prevedere se i futuri modelli (GPT-N+1) avranno un'accuratezza non banale su quel compito? Successivamente scopriamo un'intuizione semplice per questo problema: il raffinamento dei LLM su un determinato compito può spostare il punto in cui si verifica l'emergenza verso modelli meno capaci. Per operazionalizzare questa intuizione, possiamo raffinare i LLM con varie quantità di dati e adattare una funzione parametrica che prevede quando si verificherà l'emergenza (ossia, "leggi dell'emergenza"). Convalidiamo questo approccio utilizzando quattro benchmark standard di NLP in cui i LLM open-source su larga scala dimostrano già l'emergenza (MMLU, GSM8K, CommonsenseQA e CoLA). Utilizzando solo LLM su piccola scala, scopriamo che, in alcuni casi, possiamo prevedere con precisione se i modelli addestrati con fino a 4 volte più calcolo sono emersi. Infine, presentiamo uno studio di caso di due utilizzi realistici per la previsione dell'emergenza.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary