MALT: Migliorare il Ragionamento con l'Addestramento Multi-Agente di LLM
MALT: Improving Reasoning with Multi-Agent LLM Training
December 2, 2024
Autori: Sumeet Ramesh Motwani, Chandler Smith, Rocktim Jyoti Das, Markian Rybchuk, Philip H. S. Torr, Ivan Laptev, Fabio Pizzati, Ronald Clark, Christian Schroeder de Witt
cs.AI
Abstract
Abilitare una collaborazione efficace tra LLM è un passo cruciale verso lo sviluppo di sistemi autonomi capaci di risolvere problemi complessi. Mentre i LLM sono tipicamente utilizzati come generatori di singoli modelli, in cui gli esseri umani criticano e affinano le loro uscite, il potenziale per modelli collaborativi addestrati congiuntamente rimane in gran parte inesplorato. Nonostante risultati promettenti in contesti di comunicazione e dibattito multi-agente, si è fatto poco progresso nell'addestrare modelli a lavorare insieme su compiti. In questo articolo, presentiamo un primo passo verso il "Multi-agent LLM training" (MALT) su problemi di ragionamento. Il nostro approccio impiega un setup multi-agente sequenziale con LLM eterogenei assegnati a ruoli specializzati: un generatore, un verificatore e un modello di perfezionamento che risolvono iterativamente i problemi. Proponiamo un processo di generazione di dati sintetici basato sull'espansione della traiettoria e una strategia di assegnazione del credito guidata da ricompense basate sull'esito congiunto. Ciò consente al nostro setup post-addestramento di utilizzare sia traiettorie positive che negative per migliorare autonomamente le capacità specializzate di ciascun modello come parte di un sistema sequenziale congiunto. Valutiamo il nostro approccio su MATH, GSM8k e CQA, dove MALT sui modelli Llama 3.1 8B raggiunge miglioramenti relativi del 14,14%, 7,12% e 9,40% rispettivamente rispetto allo stesso modello di base. Ciò dimostra un primo avanzamento nelle capacità cooperative multi-agente per le prestazioni su domande di ragionamento matematico e di buon senso. Più in generale, il nostro lavoro fornisce una direzione concreta per la ricerca intorno agli approcci di addestramento multi-agente dei LLM.
English
Enabling effective collaboration among LLMs is a crucial step toward
developing autonomous systems capable of solving complex problems. While LLMs
are typically used as single-model generators, where humans critique and refine
their outputs, the potential for jointly-trained collaborative models remains
largely unexplored. Despite promising results in multi-agent communication and
debate settings, little progress has been made in training models to work
together on tasks. In this paper, we present a first step toward "Multi-agent
LLM training" (MALT) on reasoning problems. Our approach employs a sequential
multi-agent setup with heterogeneous LLMs assigned specialized roles: a
generator, verifier, and refinement model iteratively solving problems. We
propose a trajectory-expansion-based synthetic data generation process and a
credit assignment strategy driven by joint outcome based rewards. This enables
our post-training setup to utilize both positive and negative trajectories to
autonomously improve each model's specialized capabilities as part of a joint
sequential system. We evaluate our approach across MATH, GSM8k, and CQA, where
MALT on Llama 3.1 8B models achieves relative improvements of 14.14%, 7.12%,
and 9.40% respectively over the same baseline model. This demonstrates an early
advance in multi-agent cooperative capabilities for performance on mathematical
and common sense reasoning questions. More generally, our work provides a
concrete direction for research around multi-agent LLM training approaches.Summary
AI-Generated Summary