Ponderazione Adattiva Basata sull'Entropia per l'Auto-Addestramento

Abstract

Le capacità di risoluzione di problemi matematici dei modelli linguistici di grandi dimensioni sono diventate un punto focale della ricerca, con un crescente interesse nello sfruttare percorsi di ragionamento auto-generati come un modo promettente per affinare e migliorare questi modelli. Questi percorsi catturano processi logici passo-passo richiedendo solo la risposta corretta per la supervisione. Il metodo di auto-addestramento si è dimostrato efficace nei compiti di ragionamento, eliminando la necessità di modelli esterni e annotazioni manuali. Tuttavia, ottimizzare l'uso dei dati auto-generati per l'addestramento del modello rimane una sfida aperta. In questo lavoro, proponiamo l'Entropy-Based Adaptive Weighting for Self-Training (EAST), una strategia di ponderazione adattiva progettata per dare priorità ai dati incerti durante l'auto-addestramento. Nello specifico, EAST utilizza una funzione di mappatura con un parametro regolabile che controlla l'acutezza della ponderazione, assegnando pesi maggiori ai dati in cui il modello mostra una maggiore incertezza. Questo approccio guida il modello a concentrarsi su esempi più informativi e impegnativi, migliorando così la sua capacità di ragionamento. Valutiamo il nostro approccio sui benchmark GSM8K e MATH. I risultati empirici mostrano che, mentre il metodo standard non produce praticamente alcun miglioramento (0%) su MATH, EAST raggiunge un guadagno di circa l'1% rispetto al modello di base. Su GSM8K, EAST ottiene un ulteriore miglioramento delle prestazioni dell'1-2% rispetto al metodo standard.

English

The mathematical problem-solving capabilities of large language models have become a focal point of research, with growing interests in leveraging self-generated reasoning paths as a promising way to refine and enhance these models. These paths capture step-by-step logical processes while requiring only the correct answer for supervision. The self-training method has been shown to be effective in reasoning tasks while eliminating the need for external models and manual annotations. However, optimizing the use of self-generated data for model training remains an open challenge. In this work, we propose Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive weighting strategy designed to prioritize uncertain data during self-training. Specifically, EAST employs a mapping function with a tunable parameter that controls the sharpness of the weighting, assigning higher weights to data where the model exhibits greater uncertainty. This approach guides the model to focus on more informative and challenging examples, thereby enhancing its reasoning ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical results show that, while the vanilla method yields virtually no improvement (0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K, EAST attains a further 1-2% performance boost compared to the vanilla method.

Ponderazione Adattiva Basata sull'Entropia per l'Auto-Addestramento

Entropy-Based Adaptive Weighting for Self-Training

Abstract

Summary

Support

Support