Rivedere l'apprendimento in contesto con modelli linguistici a lungo contesto
Revisiting In-Context Learning with Long Context Language Models
December 22, 2024
Autori: Jinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar
cs.AI
Abstract
L'apprendimento in contesto (ICL) è una tecnica mediante la quale i modelli linguistici effettuano previsioni basate sugli esempi forniti nel loro contesto di input. In precedenza, le dimensioni della finestra di contesto imponevano un limite al numero di esempi che potevano essere mostrati, rendendo cruciali le tecniche di selezione degli esempi per identificare il set di esempi massimalmente efficace. Tuttavia, il recente sviluppo dei Modelli Linguistici a Lungo Contesto (LCLMs) ha aumentato significativamente il numero di esempi che possono essere inclusi nel contesto, sollevando un'importante questione su se le prestazioni dell'ICL in un regime many-shot siano ancora sensibili al metodo di selezione del campione. Per rispondere a ciò, esaminiamo nuovamente questi approcci nel contesto dei LCLMs attraverso ampi esperimenti su 18 set di dati che coprono 4 compiti. Sorprendentemente, osserviamo che le sofisticate tecniche di selezione degli esempi non portano a miglioramenti significativi rispetto a un semplice metodo di selezione casuale del campione. Invece, scopriamo che l'avvento dei LCLMs ha spostato fondamentalmente la sfida dell'ICL dal selezionare gli esempi più efficaci a raccogliere abbastanza esempi per riempire la finestra di contesto. In particolare, in alcuni set di dati, includere tutti gli esempi disponibili non sfrutta appieno la finestra di contesto; tuttavia, aggiungendo gli esempi nel contesto con un semplice approccio di aumento dei dati, miglioriamo sostanzialmente le prestazioni dell'ICL del 5%.
English
In-Context Learning (ICL) is a technique by which language models make
predictions based on examples provided in their input context. Previously,
their context window size imposed a limit on the number of examples that can be
shown, making example selection techniques crucial for identifying the
maximally effective set of examples. However, the recent advent of Long Context
Language Models (LCLMs) has significantly increased the number of examples that
can be included in context, raising an important question of whether ICL
performance in a many-shot regime is still sensitive to the method of sample
selection. To answer this, we revisit these approaches in the context of LCLMs
through extensive experiments on 18 datasets spanning 4 tasks. Surprisingly, we
observe that sophisticated example selection techniques do not yield
significant improvements over a simple random sample selection method. Instead,
we find that the advent of LCLMs has fundamentally shifted the challenge of ICL
from that of selecting the most effective examples to that of collecting
sufficient examples to fill the context window. Specifically, in certain
datasets, including all available examples does not fully utilize the context
window; however, by augmenting the examples in context with a simple data
augmentation approach, we substantially improve ICL performance by 5%.Summary
AI-Generated Summary