Raciocínio LLM Consciente do Orçamento de Tokens

Resumo

O raciocínio é crucial para que os grandes modelos de linguagem (LLMs) se destaquem em uma ampla gama de tarefas. Enquanto métodos como o raciocínio Chain-of-Thought (CoT) aprimoram o desempenho do LLM decompondo problemas em etapas intermediárias, eles também incorrem em um uso significativo de tokens, resultando em custos mais elevados. Observamos que o processo de raciocínio dos LLMs atuais é desnecessariamente longo e pode ser comprimido ao incluir um orçamento razoável de tokens na sugestão, mas a escolha do orçamento de tokens desempenha um papel crucial na eficácia real da compressão. Propomos então um framework de raciocínio de LLM consciente do orçamento de tokens, que estima dinamicamente orçamentos de tokens para diferentes problemas com base na complexidade do raciocínio e utiliza os orçamentos de tokens estimados para orientar o processo de raciocínio. Experimentos mostram que nosso método reduz efetivamente os custos de tokens no raciocínio CoT com apenas uma leve redução de desempenho, oferecendo uma solução prática para equilibrar eficiência e precisão no raciocínio de LLMs. Código: https://github.com/GeniusHTX/TALE.

English

Reasoning is critical for large language models (LLMs) to excel in a wide range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM performance by decomposing problems into intermediate steps, they also incur significant overhead in token usage, leading to increased costs. We find that the reasoning process of current LLMs is unnecessarily lengthy and it can be compressed by including a reasonable token budget in the prompt, but the choice of token budget plays a crucial role in the actual compression effectiveness. We then propose a token-budget-aware LLM reasoning framework, which dynamically estimates token budgets for different problems based on reasoning complexity and uses the estimated token budgets to guide the reasoning process. Experiments show that our method effectively reduces token costs in CoT reasoning with only a slight performance reduction, offering a practical solution to balance efficiency and accuracy in LLM reasoning. Code: https://github.com/GeniusHTX/TALE.

Raciocínio LLM Consciente do Orçamento de Tokens

Token-Budget-Aware LLM Reasoning

Resumo

Summary

Support