Una legge di scalabilità semplice e dimostrabile per il calcolo del tempo di test dei grandi modelli linguistici

Abstract

Proponiamo un algoritmo generale a due fasi che gode di una legge di scalabilità dimostrabile per il calcolo al momento del test di grandi modelli linguistici (LLM). Data un'istanza di input, l'algoritmo proposto genera innanzitutto N soluzioni candidate, per poi scegliere la migliore tramite un torneo a eliminazione a più turni in cui ciascuna coppia di candidati viene confrontata K volte e solo i vincitori passano al turno successivo. In un'implementazione minimalista, entrambe le fasi possono essere eseguite solo con un LLM a scatola nera e nient'altro (ad esempio, nessun verificatore esterno o modello di ricompensa), e sono necessarie un totale di N volte (K + 1) chiamate LLM altamente parallelizzabili per risolvere un problema di input. Supponendo che una soluzione candidata generata sia corretta con una probabilità p_{gen} > 0 e che un confronto tra una coppia di soluzioni corrette e incorrette identifichi il vincitore corretto con una probabilità p_{comp} > 0.5 (cioè meglio di un'ipotesi casuale), dimostriamo teoricamente che la probabilità di fallimento dell'algoritmo proposto decresce esponenzialmente rispetto a N e K: $P(l'output finale è incorretto) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}$. I nostri risultati empirici con il difficile benchmark MMLU-Pro convalidano le ipotesi tecniche, nonché l'efficacia dell'algoritmo proposto e i vantaggi derivanti dall'aumento della sua capacità di calcolo al momento del test.

English

We propose a general two-stage algorithm that enjoys a provable scaling law for the test-time compute of large language models (LLMs). Given an input problem, the proposed algorithm first generates N candidate solutions, and then chooses the best one via a multiple-round knockout tournament where each pair of candidates are compared for K times and only the winners move on to the next round. In a minimalistic implementation, both stages can be executed with a black-box LLM alone and nothing else (e.g., no external verifier or reward model), and a total of N times (K + 1) highly parallelizable LLM calls are needed for solving an input problem. Assuming that a generated candidate solution is correct with probability p_{gen} > 0 and a comparison between a pair of correct and incorrect solutions identifies the right winner with probability p_{comp} > 0.5 (i.e., better than a random guess), we prove theoretically that the failure probability of the proposed algorithm decays to zero exponentially with respect to N and K: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Our empirical results with the challenging MMLU-Pro benchmark validate the technical assumptions, as well as the efficacy of the proposed algorithm and the gains from scaling up its test-time compute.

Una legge di scalabilità semplice e dimostrabile per il calcolo del tempo di test dei grandi modelli linguistici

A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Abstract

Support