ChatPaper.aiChatPaper

사용할 수 없다면 재활용하라: 규모 확장에서 병합 최적화 성능 트레이드오프 완화

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

December 5, 2024
저자: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI

초록

모델 병합은 전문가 모델을 결합하는 데 큰 잠재력을 보여주었지만, 여러 작업에 대해 훈련된 "일반적" 모델을 병합할 때의 이점은 불분명합니다. 우리는 대규모(약 100B) 모델의 맥락에서 병합을 탐구합니다. 서로 다른 작업 사이에서 트레이드오프를 보이는 체크포인트를 재활용함으로써. 이러한 체크포인트는 전방 모델을 개발하는 과정에서 생성되며, 많은 부적합한 체크포인트는 일반적으로 폐기됩니다. 서로 다른 훈련 실행(예: 다른 단계, 목표, 하이퍼파라미터 및 데이터 조합)에서 얻은 모델 체크포인트 풀이 있으며, 이는 일반적으로 언어 능력(예: 지시 따르기 vs. 코드 생성) 간의 트레이드오프를 자연스럽게 보여줍니다. 우리는 병합이 이러한 부적합한 모델을 파레토-최적 모델로 재활용할 수 있는지 조사합니다. 우리의 최적화 알고리즘은 각 체크포인트의 가중치를 선형 결합하여 조정하며, 이로써 개별 모델 및 병합 기반 기준을 능가하는 파레토-최적 모델을 얻습니다. 추가 분석 결과, 좋은 병합은 일반적으로 가중치가 0이 아닌 거의 모든 체크포인트를 포함하는 경향이 있으며, 보이기에는 나쁜 초기 체크포인트조차도 좋은 최종 병합에 기여할 수 있음을 나타냅니다.
English
Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Summary

AI-Generated Summary

PDF52December 10, 2024