Agregando Modelos de Linguagem Grandes com Busca em Árvore Guiada por Recompensa de Processo para Melhorar o Raciocínio Complexo

Resumo

Apesar dos avanços recentes em grandes modelos de linguagem, os modelos de código aberto frequentemente têm dificuldade em apresentar consistentemente bom desempenho em tarefas de raciocínio complexas. Métodos de conjunto existentes, seja aplicados nos níveis de token ou de saída, falham em lidar com esses desafios. Em resposta, apresentamos o Ensemble de Modelos de Linguagem com Busca de Árvore Monte Carlo (LE-MCTS), um novo framework para a combinação em nível de processo de modelos de linguagem. O LE-MCTS formula o raciocínio passo a passo com um conjunto de modelos de linguagem como um processo de decisão de Markov. Neste framework, os estados representam caminhos de raciocínio intermediários, enquanto as ações consistem em gerar o próximo passo de raciocínio usando um dos modelos de linguagem selecionados de um conjunto pré-definido. Guiado por um modelo de recompensa baseado em processo, o LE-MCTS realiza uma busca em árvore sobre os passos de raciocínio gerados por diferentes modelos de linguagem, identificando a cadeia de raciocínio mais precisa. Resultados experimentais em cinco benchmarks de raciocínio matemático demonstram que nossa abordagem supera tanto os algoritmos de decodificação de um único modelo de linguagem quanto os métodos de conjunto de modelos de linguagem. Notavelmente, o LE-MCTS melhora o desempenho em 3,6% e 4,3% nos conjuntos de dados MATH e MQA, respectivamente, destacando sua eficácia na resolução de problemas de raciocínio complexos.

English

Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Agregando Modelos de Linguagem Grandes com Busca em Árvore Guiada por Recompensa de Processo para Melhorar o Raciocínio Complexo

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Resumo

Summary

Support