Ajuste Fino Multiagente: Autoaperfeiçoamento com Diversas Cadeias de Raciocínio
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Autores: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) alcançaram um desempenho notável nos últimos anos, mas são fundamentalmente limitados pelos dados de treinamento subjacentes. Para melhorar os modelos além dos dados de treinamento, trabalhos recentes têm explorado como os LLMs podem ser usados para gerar dados sintéticos para auto aprimoramento autônomo. No entanto, os passos sucessivos de auto aprimoramento podem atingir um ponto de retornos decrescentes. Neste trabalho, propomos uma abordagem complementar para o auto aprimoramento, onde o ajuste fino é aplicado a uma sociedade multiagente de modelos de linguagem. Um grupo de modelos de linguagem, todos partindo do mesmo modelo base, são independentemente especializados através da atualização de cada um usando dados gerados por interações multiagente entre os modelos. Ao treinar cada modelo em conjuntos de dados independentes, ilustramos como essa abordagem permite a especialização entre os modelos e a diversificação sobre o conjunto de modelos. Como resultado, nosso sistema geral é capaz de preservar cadeias de raciocínio diversas e melhorar autonomamente ao longo de muitas mais rodadas de ajuste fino do que os métodos de auto aprimoramento de um único agente. Ilustramos quantitativamente a eficácia da abordagem em uma ampla gama de tarefas de raciocínio.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary