I Token Critici Contano: Stima Contrastiva a Livello di Token Migliora la Capacità di Ragionamento dei LLM
Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability
November 29, 2024
Autori: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu
cs.AI
Abstract
I Large Language Models (LLM) hanno mostrato prestazioni notevoli nei compiti di ragionamento. Utilizzano la generazione di token autoregressiva per costruire traiettorie di ragionamento, consentendo lo sviluppo di una catena coerente di pensiero. In questo lavoro, esploriamo l'impatto dei singoli token sui risultati finali dei compiti di ragionamento. Identifichiamo l'esistenza di "token critici" che portano a traiettorie di ragionamento errate nei LLM. In particolare, scopriamo che i LLM tendono a produrre risultati positivi quando sono costretti a decodificare altri token invece dei token critici. Motivati da questa osservazione, proponiamo un approccio innovativo - cDPO - progettato per riconoscere automaticamente e condurre ricompense a livello di token per i token critici durante il processo di allineamento. In particolare, sviluppiamo un approccio di stima contrastiva per identificare automaticamente i token critici. Ciò è ottenuto confrontando la probabilità di generazione di modelli positivi e negativi. Per raggiungere questo obiettivo, sintonizziamo separatamente i modelli positivi e negativi su varie traiettorie di ragionamento, consentendo loro di identificare i token critici all'interno delle traiettorie errate che contribuiscono a risultati errati. Inoltre, per allineare ulteriormente il modello con le informazioni sui token critici durante il processo di allineamento, estendiamo gli algoritmi DPO convenzionali a livello di token DPO e utilizziamo la probabilità differenziale dai suddetti modelli positivi e negativi come peso importante per l'apprendimento a livello di token DPO. I risultati sperimentali sui benchmark GSM8K e MATH500 con due modelli ampiamente utilizzati, Llama-3 (8B e 70B) e deepseek-math (7B), dimostrano l'efficacia dell'approccio proposto cDPO.
English
Large Language Models (LLMs) have exhibited remarkable performance on
reasoning tasks. They utilize autoregressive token generation to construct
reasoning trajectories, enabling the development of a coherent chain of
thought. In this work, we explore the impact of individual tokens on the final
outcomes of reasoning tasks. We identify the existence of ``critical tokens''
that lead to incorrect reasoning trajectories in LLMs. Specifically, we find
that LLMs tend to produce positive outcomes when forced to decode other tokens
instead of critical tokens. Motivated by this observation, we propose a novel
approach - cDPO - designed to automatically recognize and conduct token-level
rewards for the critical tokens during the alignment process. Specifically, we
develop a contrastive estimation approach to automatically identify critical
tokens. It is achieved by comparing the generation likelihood of positive and
negative models. To achieve this, we separately fine-tune the positive and
negative models on various reasoning trajectories, consequently, they are
capable of identifying identify critical tokens within incorrect trajectories
that contribute to erroneous outcomes. Moreover, to further align the model
with the critical token information during the alignment process, we extend the
conventional DPO algorithms to token-level DPO and utilize the differential
likelihood from the aforementioned positive and negative model as important
weight for token-level DPO learning.Experimental results on GSM8K and MATH500
benchmarks with two-widely used models Llama-3 (8B and 70B) and deepseek-math
(7B) demonstrate the effectiveness of the propsoed approach cDPO.Summary
AI-Generated Summary