Ragionamento LLM consapevole del budget dei token
Token-Budget-Aware LLM Reasoning
December 24, 2024
Autori: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Abstract
Il ragionamento è fondamentale affinché i grandi modelli linguistici (LLM) eccellano in una vasta gamma di compiti. Mentre metodi come il ragionamento a catena di pensiero (CoT) migliorano le prestazioni dei LLM scomponendo i problemi in passaggi intermedi, comportano anche un notevole sovraccarico nell'uso dei token, con conseguenti costi maggiori. Abbiamo riscontrato che il processo di ragionamento dei LLM attuali è eccessivamente lungo e può essere compresso includendo un budget di token ragionevole nel prompt, ma la scelta del budget di token gioca un ruolo cruciale nell'efficacia effettiva della compressione. Proponiamo quindi un framework di ragionamento LLM consapevole del budget di token, che stima dinamicamente i budget di token per problemi diversi in base alla complessità del ragionamento e utilizza i budget di token stimati per guidare il processo di ragionamento. Gli esperimenti mostrano che il nostro metodo riduce efficacemente i costi dei token nel ragionamento CoT con solo una leggera riduzione delle prestazioni, offrendo una soluzione pratica per bilanciare l'efficienza e l'accuratezza nel ragionamento dei LLM. Codice: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary