Se non puoi usarli, riciclali: Ottimizzazione della Fusione su Larga Scala per Mitigare i Compromessi sulle Prestazioni

If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

December 5, 2024
Autori: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI

Abstract

Il merging dei modelli ha dimostrato un grande potenziale nel combinare modelli esperti, ma il beneficio del merging non è chiaro quando si fondono modelli "generalisti" addestrati su molte attività. Esploriamo il merging nel contesto di modelli di grandi dimensioni (circa 100 miliardi di parametri), riciclando i checkpoint che presentano compromessi tra diverse attività. Tali checkpoint vengono spesso creati nel processo di sviluppo di un modello all'avanguardia e molti di quelli subottimali vengono di solito scartati. Data una serie di checkpoint del modello ottenuti da diverse esecuzioni di addestramento (ad esempio, diverse fasi, obiettivi, iperparametri e combinazioni di dati), che mostrano naturalmente compromessi tra diverse capacità linguistiche (ad esempio, seguire istruzioni vs generare codice), esaminiamo se il merging possa riciclare tali modelli subottimali in uno ottimale secondo il criterio di Pareto. Il nostro algoritmo di ottimizzazione regola il peso di ciascun checkpoint in una combinazione lineare, producendo modelli ottimali secondo il criterio di Pareto che superano sia i singoli modelli che i baselines basati sul merging. Ulteriori analisi mostrano che i buoni mergers tendono ad includere quasi tutti i checkpoint con pesi non nulli, indicando che anche i checkpoint iniziali apparentemente scadenti possono contribuire a buoni mergers finali.
English
Model merging has shown great promise at combining expert models, but the benefit of merging is unclear when merging ``generalist'' models trained on many tasks. We explore merging in the context of large (sim100B) models, by recycling checkpoints that exhibit tradeoffs among different tasks. Such checkpoints are often created in the process of developing a frontier model, and many suboptimal ones are usually discarded. Given a pool of model checkpoints obtained from different training runs (e.g., different stages, objectives, hyperparameters, and data mixtures), which naturally show tradeoffs across different language capabilities (e.g., instruction following vs. code generation), we investigate whether merging can recycle such suboptimal models into a Pareto-optimal one. Our optimization algorithm tunes the weight of each checkpoint in a linear combination, resulting in a Pareto-optimal models that outperforms both individual models and merge-based baselines. Further analysis shows that good merges tend to include almost all checkpoints with with non-zero weights, indicating that even seemingly bad initial checkpoints can contribute to good final merges.

Summary

AI-Generated Summary

PDF42December 10, 2024