여러 에이전트의 혼합을 재고: 서로 다른 대형 언어 모델을 혼합하는 것이 유익한가요?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?
February 2, 2025
저자: Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin
cs.AI
초록
다양한 소스에서의 출력을 결합하는 것은 성능을 향상시키는 간단하면서도 효과적인 방법입니다. Mixture-of-Agents (MoA)는 여러 다른 대형 언어 모델(Large Language Models, LLMs)의 출력을 집계하는 인기 있는 앙상블 방법 중 하나입니다. 본 논문은 언어 모델의 맥락에서 질문을 제기합니다: 서로 다른 LLMs를 혼합하는 것이 실제로 유익한가요? 우리는 Self-MoA를 제안합니다. 이는 단 하나의 최고 성능을 보이는 LLM에서의 출력을 집계하는 앙상블 방법입니다. 우리의 방대한 실험 결과는 놀랍게도 Self-MoA가 다양한 시나리오에서 서로 다른 LLMs를 혼합하는 표준 MoA보다 우수한 성과를 보인다는 것을 보여줍니다: Self-MoA는 AlpacaEval 2.0 벤치마크에서 MoA에 비해 6.6%의 개선을 달성하며, MMLU, CRUX, MATH를 포함한 다양한 벤치마크에서 평균 3.8%의 개선을 달성합니다. AlpacaEval 2.0의 최상위 모델 중 하나에 Self-MoA를 적용하면 리더보드에서 새로운 최고 성능을 달성할 수 있습니다. Self-MoA의 효과를 이해하기 위해 우리는 다양성과 출력 품질 사이의 교환 관계를 체계적으로 조사합니다. MoA 세팅에서 다양성과 품질 사이의 교환 관계가 상당히 민감하며, 서로 다른 LLMs를 혼합하는 것이 종종 모델의 평균 품질을 낮출 수 있다는 것을 확인합니다. 연구를 보완하기 위해, 서로 다른 LLMs를 혼합하는 것이 도움이 될 수 있는 시나리오를 식별합니다. 본 논문은 Self-MoA의 순차적 버전을 소개하며, 이는 여러 라운드 동안 실시간으로 많은 LLM 출력을 집계할 수 있으며, 한꺼번에 모든 출력을 집계하는 것과 동일한 효과를 발휘합니다.
English
Ensembling outputs from diverse sources is a straightforward yet effective
approach to boost performance. Mixture-of-Agents (MoA) is one such popular
ensemble method that aggregates outputs from multiple different Large Language
Models (LLMs). This paper raises the question in the context of language
models: is mixing different LLMs truly beneficial? We propose Self-MoA -- an
ensemble method that aggregates outputs from only the single top-performing
LLM. Our extensive experiments reveal that, surprisingly, Self-MoA outperforms
standard MoA that mixes different LLMs in a large number of scenarios: Self-MoA
achieves 6.6% improvement over MoA on the AlpacaEval 2.0 benchmark, and an
average of 3.8% improvement across various benchmarks, including MMLU, CRUX,
and MATH. Applying Self-MoA to one of the top-ranking models in AlpacaEval 2.0
directly achieves the new state-of-the-art performance on the leaderboard. To
understand the effectiveness of Self-MoA, we systematically investigate the
trade-off between diversity and quality of outputs under various MoA settings.
We confirm that the MoA performance is rather sensitive to the quality, and
mixing different LLMs often lowers the average quality of the models. To
complement the study, we identify the scenarios where mixing different LLMs
could be helpful. This paper further introduces a sequential version of
Self-MoA, that is capable of aggregating a large number of LLM outputs
on-the-fly over multiple rounds, and is as effective as aggregating all outputs
at once.Summary
AI-Generated Summary