I Token Critici Contano: Stima Contrastiva a Livello di Token Migliora la Capacità di Ragionamento dei LLM

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

November 29, 2024
Autori: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu
cs.AI

Abstract

I Large Language Models (LLM) hanno mostrato prestazioni notevoli nei compiti di ragionamento. Utilizzano la generazione di token autoregressiva per costruire traiettorie di ragionamento, consentendo lo sviluppo di una catena coerente di pensiero. In questo lavoro, esploriamo l'impatto dei singoli token sui risultati finali dei compiti di ragionamento. Identifichiamo l'esistenza di "token critici" che portano a traiettorie di ragionamento errate nei LLM. In particolare, scopriamo che i LLM tendono a produrre risultati positivi quando sono costretti a decodificare altri token invece dei token critici. Motivati da questa osservazione, proponiamo un approccio innovativo - cDPO - progettato per riconoscere automaticamente e condurre ricompense a livello di token per i token critici durante il processo di allineamento. In particolare, sviluppiamo un approccio di stima contrastiva per identificare automaticamente i token critici. Ciò è ottenuto confrontando la probabilità di generazione di modelli positivi e negativi. Per raggiungere questo obiettivo, sintonizziamo separatamente i modelli positivi e negativi su varie traiettorie di ragionamento, consentendo loro di identificare i token critici all'interno delle traiettorie errate che contribuiscono a risultati errati. Inoltre, per allineare ulteriormente il modello con le informazioni sui token critici durante il processo di allineamento, estendiamo gli algoritmi DPO convenzionali a livello di token DPO e utilizziamo la probabilità differenziale dai suddetti modelli positivi e negativi come peso importante per l'apprendimento a livello di token DPO. I risultati sperimentali sui benchmark GSM8K e MATH500 con due modelli ampiamente utilizzati, Llama-3 (8B e 70B) e deepseek-math (7B), dimostrano l'efficacia dell'approccio proposto cDPO.
English
Large Language Models (LLMs) have exhibited remarkable performance on reasoning tasks. They utilize autoregressive token generation to construct reasoning trajectories, enabling the development of a coherent chain of thought. In this work, we explore the impact of individual tokens on the final outcomes of reasoning tasks. We identify the existence of ``critical tokens'' that lead to incorrect reasoning trajectories in LLMs. Specifically, we find that LLMs tend to produce positive outcomes when forced to decode other tokens instead of critical tokens. Motivated by this observation, we propose a novel approach - cDPO - designed to automatically recognize and conduct token-level rewards for the critical tokens during the alignment process. Specifically, we develop a contrastive estimation approach to automatically identify critical tokens. It is achieved by comparing the generation likelihood of positive and negative models. To achieve this, we separately fine-tune the positive and negative models on various reasoning trajectories, consequently, they are capable of identifying identify critical tokens within incorrect trajectories that contribute to erroneous outcomes. Moreover, to further align the model with the critical token information during the alignment process, we extend the conventional DPO algorithms to token-level DPO and utilize the differential likelihood from the aforementioned positive and negative model as important weight for token-level DPO learning.Experimental results on GSM8K and MATH500 benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math (7B) demonstrate the effectiveness of the propsoed approach cDPO.

Summary

AI-Generated Summary

PDF577December 4, 2024