Combinare Grandi Modelli Linguistici con Ricerca ad Albero Guidata da Ricompensa del Processo per un Miglior Ragionamento Complesso

Abstract

Nonostante i recenti progressi nei grandi modelli linguistici, i modelli open-source spesso faticano a ottenere risultati consistenti su complesse attività di ragionamento. I metodi di ensemble esistenti, sia applicati a livello di token che di output, non riescono a risolvere tali sfide. In risposta, presentiamo Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), un nuovo framework per l'ensemble a livello di processo dei modelli linguistici. LE-MCTS formula il ragionamento passo dopo passo con un ensemble di modelli linguistici come un processo decisionale di Markov. In questo framework, gli stati rappresentano percorsi intermedi di ragionamento, mentre le azioni consistono nella generazione del prossimo passo di ragionamento utilizzando uno dei modelli linguistici selezionati da un pool predefinito. Guidato da un modello di reward basato sul processo, LE-MCTS esegue una ricerca ad albero sui passaggi di ragionamento generati da diversi modelli linguistici, identificando la catena di ragionamento più accurata. I risultati sperimentali su cinque benchmark di ragionamento matematico dimostrano che il nostro approccio supera sia gli algoritmi di decodifica dei singoli modelli linguistici che i metodi di ensemble dei modelli linguistici. In particolare, LE-MCTS migliora le prestazioni del 3,6% e del 4,3% rispettivamente sui dataset MATH e MQA, evidenziando la sua efficacia nella risoluzione di complessi problemi di ragionamento.

English

Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Combinare Grandi Modelli Linguistici con Ricerca ad Albero Guidata da Ricompensa del Processo per un Miglior Ragionamento Complesso

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Abstract

Summary

Support