Cosa, Come, Dove e Quanto Bene? Un'indagine sul Ridimensionamento al Momento del Test nei Modelli Linguistici di Grande Dimensione
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
March 31, 2025
Autori: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
cs.AI
Abstract
Mentre l'entusiasmo per il ridimensionamento del calcolo (dati e parametri) nell'era del pre-addestramento si è gradualmente attenuato, il ridimensionamento al momento del test (TTS), anche noto come "calcolo al momento del test", è emerso come un importante focus di ricerca. Studi recenti dimostrano che il TTS può ulteriormente stimolare le capacità di risoluzione dei problemi dei grandi modelli linguistici (LLM), consentendo significativi progressi non solo in compiti specializzati di ragionamento, come la matematica e la programmazione, ma anche in compiti generali come domande e risposte aperte. Tuttavia, nonostante l'esplosione di recenti sforzi in questo ambito, rimane un urgente bisogno di una rassegna completa che offra una comprensione sistemica. Per colmare questa lacuna, proponiamo un framework unificato e multidimensionale strutturato lungo quattro dimensioni fondamentali della ricerca sul TTS: cosa ridimensionare, come ridimensionare, dove ridimensionare e quanto bene ridimensionare. Basandoci su questa tassonomia, conduciamo una revisione estesa di metodi, scenari applicativi e aspetti di valutazione, e presentiamo una scomposizione organizzata che evidenzia i ruoli funzionali unici delle singole tecniche all'interno del panorama più ampio del TTS. Da questa analisi, distilliamo le principali traiettorie di sviluppo del TTS fino ad oggi e offriamo linee guida pratiche per l'implementazione. Inoltre, identifichiamo diverse sfide aperte e offriamo spunti su promettenti direzioni future, tra cui un ulteriore ridimensionamento, la chiarificazione dell'essenza funzionale delle tecniche, la generalizzazione a più compiti e ulteriori attribuzioni.
English
As enthusiasm for scaling computation (data and parameters) in the
pretraining era gradually diminished, test-time scaling (TTS), also referred to
as ``test-time computing'' has emerged as a prominent research focus. Recent
studies demonstrate that TTS can further elicit the problem-solving
capabilities of large language models (LLMs), enabling significant
breakthroughs not only in specialized reasoning tasks, such as mathematics and
coding, but also in general tasks like open-ended Q&A. However, despite the
explosion of recent efforts in this area, there remains an urgent need for a
comprehensive survey offering a systemic understanding. To fill this gap, we
propose a unified, multidimensional framework structured along four core
dimensions of TTS research: what to scale, how to scale, where to scale, and
how well to scale. Building upon this taxonomy, we conduct an extensive review
of methods, application scenarios, and assessment aspects, and present an
organized decomposition that highlights the unique functional roles of
individual techniques within the broader TTS landscape. From this analysis, we
distill the major developmental trajectories of TTS to date and offer hands-on
guidelines for practical deployment. Furthermore, we identify several open
challenges and offer insights into promising future directions, including
further scaling, clarifying the functional essence of techniques, generalizing
to more tasks, and more attributions.Summary
AI-Generated Summary