Agregando Modelos de Linguagem Grandes com Busca em Árvore Guiada por Recompensa de Processo para Melhorar o Raciocínio Complexo
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
December 20, 2024
Autores: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI
Resumo
Apesar dos avanços recentes em grandes modelos de linguagem, os modelos de código aberto frequentemente têm dificuldade em apresentar consistentemente bom desempenho em tarefas de raciocínio complexas. Métodos de conjunto existentes, seja aplicados nos níveis de token ou de saída, falham em lidar com esses desafios. Em resposta, apresentamos o Ensemble de Modelos de Linguagem com Busca de Árvore Monte Carlo (LE-MCTS), um novo framework para a combinação em nível de processo de modelos de linguagem. O LE-MCTS formula o raciocínio passo a passo com um conjunto de modelos de linguagem como um processo de decisão de Markov. Neste framework, os estados representam caminhos de raciocínio intermediários, enquanto as ações consistem em gerar o próximo passo de raciocínio usando um dos modelos de linguagem selecionados de um conjunto pré-definido. Guiado por um modelo de recompensa baseado em processo, o LE-MCTS realiza uma busca em árvore sobre os passos de raciocínio gerados por diferentes modelos de linguagem, identificando a cadeia de raciocínio mais precisa. Resultados experimentais em cinco benchmarks de raciocínio matemático demonstram que nossa abordagem supera tanto os algoritmos de decodificação de um único modelo de linguagem quanto os métodos de conjunto de modelos de linguagem. Notavelmente, o LE-MCTS melhora o desempenho em 3,6% e 4,3% nos conjuntos de dados MATH e MQA, respectivamente, destacando sua eficácia na resolução de problemas de raciocínio complexos.
English
Despite recent advances in large language models, open-source models often
struggle to consistently perform well on complex reasoning tasks. Existing
ensemble methods, whether applied at the token or output levels, fail to
address these challenges. In response, we present Language model Ensemble with
Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level
ensembling of language models. LE-MCTS formulates step-by-step reasoning with
an ensemble of language models as a Markov decision process. In this framework,
states represent intermediate reasoning paths, while actions consist of
generating the next reasoning step using one of the language models selected
from a predefined pool. Guided by a process-based reward model, LE-MCTS
performs a tree search over the reasoning steps generated by different language
models, identifying the most accurate reasoning chain. Experimental results on
five mathematical reasoning benchmarks demonstrate that our approach
outperforms both single language model decoding algorithms and language model
ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the
MATH and MQA datasets, respectively, highlighting its effectiveness in solving
complex reasoning problems.Summary
AI-Generated Summary