Se non puoi usarli, riciclali: Ottimizzazione della Fusione su Larga Scala per Mitigare i Compromessi sulle Prestazioni
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs
December 5, 2024
Autori: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
cs.AI
Abstract
Il merging dei modelli ha dimostrato un grande potenziale nel combinare modelli esperti, ma il beneficio del merging non è chiaro quando si fondono modelli "generalisti" addestrati su molte attività. Esploriamo il merging nel contesto di modelli di grandi dimensioni (circa 100 miliardi di parametri), riciclando i checkpoint che presentano compromessi tra diverse attività. Tali checkpoint vengono spesso creati nel processo di sviluppo di un modello all'avanguardia e molti di quelli subottimali vengono di solito scartati. Data una serie di checkpoint del modello ottenuti da diverse esecuzioni di addestramento (ad esempio, diverse fasi, obiettivi, iperparametri e combinazioni di dati), che mostrano naturalmente compromessi tra diverse capacità linguistiche (ad esempio, seguire istruzioni vs generare codice), esaminiamo se il merging possa riciclare tali modelli subottimali in uno ottimale secondo il criterio di Pareto. Il nostro algoritmo di ottimizzazione regola il peso di ciascun checkpoint in una combinazione lineare, producendo modelli ottimali secondo il criterio di Pareto che superano sia i singoli modelli che i baselines basati sul merging. Ulteriori analisi mostrano che i buoni mergers tendono ad includere quasi tutti i checkpoint con pesi non nulli, indicando che anche i checkpoint iniziali apparentemente scadenti possono contribuire a buoni mergers finali.
English
Model merging has shown great promise at combining expert models, but the
benefit of merging is unclear when merging ``generalist'' models trained on
many tasks. We explore merging in the context of large (sim100B) models, by
recycling checkpoints that exhibit tradeoffs among different tasks.
Such checkpoints are often created in the process of developing a frontier
model, and many suboptimal ones are usually discarded. Given a pool of model
checkpoints obtained from different training runs (e.g., different stages,
objectives, hyperparameters, and data mixtures), which naturally show tradeoffs
across different language capabilities (e.g., instruction following vs. code
generation), we investigate whether merging can recycle such suboptimal models
into a Pareto-optimal one. Our optimization algorithm tunes the weight of each
checkpoint in a linear combination, resulting in a Pareto-optimal models that
outperforms both individual models and merge-based baselines. Further analysis
shows that good merges tend to include almost all checkpoints with with
non-zero weights, indicating that even seemingly bad initial checkpoints can
contribute to good final merges.Summary
AI-Generated Summary