Ponderazione Adattiva Basata sull'Entropia per l'Auto-Addestramento
Entropy-Based Adaptive Weighting for Self-Training
March 31, 2025
Autori: Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang
cs.AI
Abstract
Le capacità di risoluzione di problemi matematici dei modelli linguistici di grandi dimensioni sono diventate un punto focale della ricerca, con un crescente interesse nello sfruttare percorsi di ragionamento auto-generati come un modo promettente per affinare e migliorare questi modelli. Questi percorsi catturano processi logici passo-passo richiedendo solo la risposta corretta per la supervisione. Il metodo di auto-addestramento si è dimostrato efficace nei compiti di ragionamento, eliminando la necessità di modelli esterni e annotazioni manuali. Tuttavia, ottimizzare l'uso dei dati auto-generati per l'addestramento del modello rimane una sfida aperta. In questo lavoro, proponiamo l'Entropy-Based Adaptive Weighting for Self-Training (EAST), una strategia di ponderazione adattiva progettata per dare priorità ai dati incerti durante l'auto-addestramento. Nello specifico, EAST utilizza una funzione di mappatura con un parametro regolabile che controlla l'acutezza della ponderazione, assegnando pesi maggiori ai dati in cui il modello mostra una maggiore incertezza. Questo approccio guida il modello a concentrarsi su esempi più informativi e impegnativi, migliorando così la sua capacità di ragionamento. Valutiamo il nostro approccio sui benchmark GSM8K e MATH. I risultati empirici mostrano che, mentre il metodo standard non produce praticamente alcun miglioramento (0%) su MATH, EAST raggiunge un guadagno di circa l'1% rispetto al modello di base. Su GSM8K, EAST ottiene un ulteriore miglioramento delle prestazioni dell'1-2% rispetto al metodo standard.
English
The mathematical problem-solving capabilities of large language models have
become a focal point of research, with growing interests in leveraging
self-generated reasoning paths as a promising way to refine and enhance these
models. These paths capture step-by-step logical processes while requiring only
the correct answer for supervision. The self-training method has been shown to
be effective in reasoning tasks while eliminating the need for external models
and manual annotations. However, optimizing the use of self-generated data for
model training remains an open challenge. In this work, we propose
Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive
weighting strategy designed to prioritize uncertain data during self-training.
Specifically, EAST employs a mapping function with a tunable parameter that
controls the sharpness of the weighting, assigning higher weights to data where
the model exhibits greater uncertainty. This approach guides the model to focus
on more informative and challenging examples, thereby enhancing its reasoning
ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical
results show that, while the vanilla method yields virtually no improvement
(0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K,
EAST attains a further 1-2% performance boost compared to the vanilla method.Summary
AI-Generated Summary