Sviluppo Efficiente di Modelli tramite Fine-tuning del Trasferimento
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Autori: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Abstract
I moderni LLM incontrano difficoltà negli aggiornamenti efficienti, poiché ogni nuova versione di modello pre-addestrato richiede di ripetere costosi processi di allineamento. Questa sfida si applica anche ai modelli specifici per dominio o lingua, dove il fine-tuning su dati specializzati deve essere rifatto per ogni nuova versione del modello base. In questo articolo, esploriamo il trasferimento degli aggiornamenti di fine-tuning tra diverse versioni di modelli. Nello specifico, deriviamo il vettore di differenza da una versione di modello sorgente, che rappresenta le modifiche ai pesi derivanti dal fine-tuning, e lo applichiamo al modello base di una diversa versione target. Attraverso valutazioni empiriche su varie versioni di modelli open-weight, dimostriamo che il trasferimento dei vettori di differenza può migliorare significativamente il modello base target, spesso raggiungendo prestazioni comparabili alla sua controparte sottoposta a fine-tuning. Ad esempio, il riutilizzo degli aggiornamenti di fine-tuning da Llama 3.0 8B porta a un miglioramento assoluto dell'accuratezza del 10,7% su GPQA rispetto al modello base Llama 3.1 8B senza ulteriore addestramento, superando Llama 3.1 8B Instruct. In un contesto di sviluppo di modelli multilingue, mostriamo che questo approccio può aumentare significativamente le prestazioni su compiti in lingua target senza riaddestramento, ottenendo un miglioramento assoluto del 4,7% e del 15,5% su Global MMLU per il malgascio e il turco, rispettivamente, rispetto a Llama 3.1 8B Instruct. I nostri esperimenti controllati rivelano che il trasferimento del fine-tuning è più efficace quando i modelli sorgente e target sono linearmente connessi nello spazio dei parametri. Inoltre, dimostriamo che il trasferimento del fine-tuning offre un punto di partenza più solido e computazionalmente efficiente per ulteriori operazioni di fine-tuning. Infine, proponiamo un approccio iterativo di riciclo-e-poi-fine-tuning per lo sviluppo continuo dei modelli, che migliora sia l'efficienza che l'efficacia. I nostri risultati suggeriscono che il trasferimento del fine-tuning è una strategia valida per ridurre i costi di addestramento mantenendo le prestazioni del modello.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.Summary
AI-Generated Summary