Finetuning Multiagente: Miglioramento Personale con Diverse Catene di Ragionamento
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Autori: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno ottenuto prestazioni notevoli negli ultimi anni, ma sono fondamentalmente limitati dai dati di addestramento sottostanti. Per migliorare i modelli oltre i dati di addestramento, lavori recenti hanno esplorato come i LLM possano essere utilizzati per generare dati sintetici per un auto-miglioramento autonomo. Tuttavia, i passaggi successivi di auto-miglioramento possono raggiungere un punto di rendimenti decrescenti. In questo lavoro, proponiamo un approccio complementare verso l'auto-miglioramento in cui viene applicato il fine-tuning a una società multiagente di modelli linguistici. Un gruppo di modelli linguistici, tutti partendo dallo stesso modello di base, vengono specializzati in modo indipendente aggiornando ciascuno di essi utilizzando dati generati attraverso interazioni multiagente tra i modelli. Addestrando ciascun modello su insiemi di dati indipendenti, illustreremo come questo approccio consenta la specializzazione tra i modelli e la diversificazione sull'insieme dei modelli. Di conseguenza, il nostro sistema complessivo è in grado di preservare diverse catene di ragionamento e migliorare autonomamente su molte più iterazioni di fine-tuning rispetto ai metodi di auto-miglioramento a singolo agente. Illustreremo quantitativamente l'efficacia dell'approccio su una vasta gamma di compiti di ragionamento.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary