MALT: Migliorare il Ragionamento con l'Addestramento Multi-Agente di LLM

Abstract

Abilitare una collaborazione efficace tra LLM è un passo cruciale verso lo sviluppo di sistemi autonomi capaci di risolvere problemi complessi. Mentre i LLM sono tipicamente utilizzati come generatori di singoli modelli, in cui gli esseri umani criticano e affinano le loro uscite, il potenziale per modelli collaborativi addestrati congiuntamente rimane in gran parte inesplorato. Nonostante risultati promettenti in contesti di comunicazione e dibattito multi-agente, si è fatto poco progresso nell'addestrare modelli a lavorare insieme su compiti. In questo articolo, presentiamo un primo passo verso il "Multi-agent LLM training" (MALT) su problemi di ragionamento. Il nostro approccio impiega un setup multi-agente sequenziale con LLM eterogenei assegnati a ruoli specializzati: un generatore, un verificatore e un modello di perfezionamento che risolvono iterativamente i problemi. Proponiamo un processo di generazione di dati sintetici basato sull'espansione della traiettoria e una strategia di assegnazione del credito guidata da ricompense basate sull'esito congiunto. Ciò consente al nostro setup post-addestramento di utilizzare sia traiettorie positive che negative per migliorare autonomamente le capacità specializzate di ciascun modello come parte di un sistema sequenziale congiunto. Valutiamo il nostro approccio su MATH, GSM8k e CQA, dove MALT sui modelli Llama 3.1 8B raggiunge miglioramenti relativi del 14,14%, 7,12% e 9,40% rispettivamente rispetto allo stesso modello di base. Ciò dimostra un primo avanzamento nelle capacità cooperative multi-agente per le prestazioni su domande di ragionamento matematico e di buon senso. Più in generale, il nostro lavoro fornisce una direzione concreta per la ricerca intorno agli approcci di addestramento multi-agente dei LLM.

English

Enabling effective collaboration among LLMs is a crucial step toward developing autonomous systems capable of solving complex problems. While LLMs are typically used as single-model generators, where humans critique and refine their outputs, the potential for jointly-trained collaborative models remains largely unexplored. Despite promising results in multi-agent communication and debate settings, little progress has been made in training models to work together on tasks. In this paper, we present a first step toward "Multi-agent LLM training" (MALT) on reasoning problems. Our approach employs a sequential multi-agent setup with heterogeneous LLMs assigned specialized roles: a generator, verifier, and refinement model iteratively solving problems. We propose a trajectory-expansion-based synthetic data generation process and a credit assignment strategy driven by joint outcome based rewards. This enables our post-training setup to utilize both positive and negative trajectories to autonomously improve each model's specialized capabilities as part of a joint sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%, and 9.40% respectively over the same baseline model. This demonstrates an early advance in multi-agent cooperative capabilities for performance on mathematical and common sense reasoning questions. More generally, our work provides a concrete direction for research around multi-agent LLM training approaches.

MALT: Migliorare il Ragionamento con l'Addestramento Multi-Agente di LLM

MALT: Improving Reasoning with Multi-Agent LLM Training

Abstract

Summary

Support