ChatPaper.aiChatPaper

다중 에이전트 파인튜닝: 다양한 추론 체인을 활용한 자가 개선

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

January 10, 2025
저자: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI

초록

대형 언어 모델(LLMs)은 최근 몇 년 동안 놀라운 성과를 이루었지만 기본적으로는 훈련 데이터에 의해 제한됩니다. 훈련 데이터를 넘어서 모델을 개선하기 위해 최근 연구들은 LLMs가 자체적인 자가 개선을 위해 합성 데이터를 생성하는 방법을 탐구해 왔습니다. 그러나 자가 개선의 연속적인 단계는 점차적인 수익점에 도달할 수 있습니다. 본 연구에서는 자가 개선을 위한 보완적인 접근 방식을 제안합니다. 여기서는 다중 에이전트 언어 모델의 세부 조정(finetuning)이 적용됩니다. 동일한 기본 모델을 시작으로 하는 일련의 언어 모델 그룹은 각각이 모델 간 다중 에이전트 상호작용을 통해 생성된 데이터를 사용하여 독립적으로 특수화됩니다. 각 모델을 독립적인 데이터 집합에 대해 훈련함으로써, 이 접근 방식이 모델 간 특수화와 모델 집합에 걸쳐 다양성을 유지할 수 있음을 설명합니다. 결과적으로, 우리의 전체 시스템은 다양한 추론 체인을 보존하고 단일 에이전트 자가 개선 방법보다 훨씬 많은 세부 조정 라운드 동안 자율적으로 개선할 수 있습니다. 우리는 이 접근 방식의 효과를 다양한 추론 작업 세트를 통해 양적으로 설명합니다.
English
Large language models (LLMs) have achieved remarkable performance in recent years but are fundamentally limited by the underlying training data. To improve models beyond the training data, recent works have explored how LLMs can be used to generate synthetic data for autonomous self-improvement. However, successive steps of self-improvement can reach a point of diminishing returns. In this work, we propose a complementary approach towards self-improvement where finetuning is applied to a multiagent society of language models. A group of language models, all starting from the same base model, are independently specialized by updating each one using data generated through multiagent interactions among the models. By training each model on independent sets of data, we illustrate how this approach enables specialization across models and diversification over the set of models. As a result, our overall system is able to preserve diverse reasoning chains and autonomously improve over many more rounds of fine-tuning than single-agent self-improvement methods. We quantitatively illustrate the efficacy of the approach across a wide suite of reasoning tasks.

Summary

AI-Generated Summary

PDF202January 13, 2025