Combinare Grandi Modelli Linguistici con Ricerca ad Albero Guidata da Ricompensa del Processo per un Miglior Ragionamento Complesso
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
December 20, 2024
Autori: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi
cs.AI
Abstract
Nonostante i recenti progressi nei grandi modelli linguistici, i modelli open-source spesso faticano a ottenere risultati consistenti su complesse attività di ragionamento. I metodi di ensemble esistenti, sia applicati a livello di token che di output, non riescono a risolvere tali sfide. In risposta, presentiamo Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), un nuovo framework per l'ensemble a livello di processo dei modelli linguistici. LE-MCTS formula il ragionamento passo dopo passo con un ensemble di modelli linguistici come un processo decisionale di Markov. In questo framework, gli stati rappresentano percorsi intermedi di ragionamento, mentre le azioni consistono nella generazione del prossimo passo di ragionamento utilizzando uno dei modelli linguistici selezionati da un pool predefinito. Guidato da un modello di reward basato sul processo, LE-MCTS esegue una ricerca ad albero sui passaggi di ragionamento generati da diversi modelli linguistici, identificando la catena di ragionamento più accurata. I risultati sperimentali su cinque benchmark di ragionamento matematico dimostrano che il nostro approccio supera sia gli algoritmi di decodifica dei singoli modelli linguistici che i metodi di ensemble dei modelli linguistici. In particolare, LE-MCTS migliora le prestazioni del 3,6% e del 4,3% rispettivamente sui dataset MATH e MQA, evidenziando la sua efficacia nella risoluzione di complessi problemi di ragionamento.
English
Despite recent advances in large language models, open-source models often
struggle to consistently perform well on complex reasoning tasks. Existing
ensemble methods, whether applied at the token or output levels, fail to
address these challenges. In response, we present Language model Ensemble with
Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level
ensembling of language models. LE-MCTS formulates step-by-step reasoning with
an ensemble of language models as a Markov decision process. In this framework,
states represent intermediate reasoning paths, while actions consist of
generating the next reasoning step using one of the language models selected
from a predefined pool. Guided by a process-based reward model, LE-MCTS
performs a tree search over the reasoning steps generated by different language
models, identifying the most accurate reasoning chain. Experimental results on
five mathematical reasoning benchmarks demonstrate that our approach
outperforms both single language model decoding algorithms and language model
ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the
MATH and MQA datasets, respectively, highlighting its effectiveness in solving
complex reasoning problems.Summary
AI-Generated Summary