Multiagent Feinabstimmung: Selbstverbesserung mit vielfältigen Schlussketten

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

January 10, 2025
Autoren: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben in den letzten Jahren bemerkenswerte Leistungen erbracht, sind jedoch grundsätzlich durch die zugrunde liegenden Trainingsdaten begrenzt. Um Modelle über die Trainingsdaten hinaus zu verbessern, haben aktuelle Arbeiten untersucht, wie LLMs zur Generierung synthetischer Daten für autonomes Selbstverbessern genutzt werden können. Allerdings können aufeinanderfolgende Schritte der Selbstverbesserung einen Punkt der abnehmenden Erträge erreichen. In dieser Arbeit schlagen wir einen ergänzenden Ansatz zur Selbstverbesserung vor, bei dem Feinabstimmung auf eine Multiagenten-Gesellschaft von Sprachmodellen angewendet wird. Eine Gruppe von Sprachmodellen, die alle vom selben Basismodell ausgehen, wird unabhängig voneinander spezialisiert, indem jedes Modell durch Daten aktualisiert wird, die durch Multiagenten-Interaktionen zwischen den Modellen generiert werden. Durch das Training jedes Modells auf unabhängigen Datensätzen zeigen wir, wie dieser Ansatz Spezialisierung über Modelle hinweg und Diversifizierung über den Modellsatz ermöglicht. Als Ergebnis ist unser Gesamtsystem in der Lage, vielfältige Denkwege zu bewahren und sich autonom über viele weitere Runden der Feinabstimmung zu verbessern als Einzelagenten-Selbstverbesserungsmethoden. Wir veranschaulichen quantitativ die Wirksamkeit des Ansatzes über eine breite Palette von Denkaufgaben.
English
Large language models (LLMs) have achieved remarkable performance in recent years but are fundamentally limited by the underlying training data. To improve models beyond the training data, recent works have explored how LLMs can be used to generate synthetic data for autonomous self-improvement. However, successive steps of self-improvement can reach a point of diminishing returns. In this work, we propose a complementary approach towards self-improvement where finetuning is applied to a multiagent society of language models. A group of language models, all starting from the same base model, are independently specialized by updating each one using data generated through multiagent interactions among the models. By training each model on independent sets of data, we illustrate how this approach enables specialization across models and diversification over the set of models. As a result, our overall system is able to preserve diverse reasoning chains and autonomously improve over many more rounds of fine-tuning than single-agent self-improvement methods. We quantitatively illustrate the efficacy of the approach across a wide suite of reasoning tasks.

Summary

AI-Generated Summary

PDF182January 13, 2025