Raciocínio LLM Consciente do Orçamento de Tokens
Token-Budget-Aware LLM Reasoning
December 24, 2024
Autores: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Resumo
O raciocínio é crucial para que os grandes modelos de linguagem (LLMs) se destaquem em uma ampla gama de tarefas. Enquanto métodos como o raciocínio Chain-of-Thought (CoT) aprimoram o desempenho do LLM decompondo problemas em etapas intermediárias, eles também incorrem em um uso significativo de tokens, resultando em custos mais elevados. Observamos que o processo de raciocínio dos LLMs atuais é desnecessariamente longo e pode ser comprimido ao incluir um orçamento razoável de tokens na sugestão, mas a escolha do orçamento de tokens desempenha um papel crucial na eficácia real da compressão. Propomos então um framework de raciocínio de LLM consciente do orçamento de tokens, que estima dinamicamente orçamentos de tokens para diferentes problemas com base na complexidade do raciocínio e utiliza os orçamentos de tokens estimados para orientar o processo de raciocínio. Experimentos mostram que nosso método reduz efetivamente os custos de tokens no raciocínio CoT com apenas uma leve redução de desempenho, oferecendo uma solução prática para equilibrar eficiência e precisão no raciocínio de LLMs. Código: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary