Modelli più potenti NON sono Insegnanti più efficaci per il Tuning dell'Istruzione

Abstract

L'ottimizzazione delle istruzioni è stata ampiamente adottata per garantire che i grandi modelli linguistici (LLM) seguano efficacemente le istruzioni degli utenti. Le capacità di seguire le istruzioni dei LLM dipendono pesantemente dai set di dati di istruzioni utilizzati per l'ottimizzazione. Di recente, sono emersi set di dati di istruzioni sintetiche come soluzione economicamente valida per fornire istruzioni diverse e di alta qualità ai LLM. Tuttavia, gli approcci esistenti generalmente assumono che modelli più grandi o più potenti siano insegnanti più efficaci per l'ottimizzazione delle istruzioni e quindi adottano semplicemente questi modelli come generatori di risposte alle istruzioni sintetiche. In questo articolo, mettiamo in discussione questa assunzione comunemente adottata. I nostri ampi esperimenti su cinque modelli di base e venti generatori di risposte rivelano che modelli più grandi e più potenti non sono necessariamente insegnanti più efficaci per modelli più piccoli. Ci riferiamo a questo fenomeno come Paradosso dei Modelli Più Grandi. Osserviamo che le metriche esistenti non riescono a prevedere con precisione l'efficacia dei generatori di risposte poiché ignorano la compatibilità tra insegnanti e modelli di base in fase di sintonizzazione. Sviluppiamo quindi una nuova metrica, chiamata Ricompensa Corretta per la Compatibilità (CAR), per misurare l'efficacia dei generatori di risposte. I nostri esperimenti su cinque modelli di base dimostrano che CAR supera quasi tutti i confronti.

English

Instruction tuning has been widely adopted to ensure large language models (LLMs) follow user instructions effectively. The resulting instruction-following capabilities of LLMs heavily rely on the instruction datasets used for tuning. Recently, synthetic instruction datasets have emerged as an economically viable solution to provide LLMs diverse and high-quality instructions. However, existing approaches typically assume that larger or stronger models are stronger teachers for instruction tuning, and hence simply adopt these models as response generators to the synthetic instructions. In this paper, we challenge this commonly-adopted assumption. Our extensive experiments across five base models and twenty response generators reveal that larger and stronger models are not necessarily stronger teachers of smaller models. We refer to this phenomenon as the Larger Models' Paradox. We observe that existing metrics cannot precisely predict the effectiveness of response generators since they ignore the compatibility between teachers and base models being fine-tuned. We thus develop a novel metric, named as Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response generators. Our experiments across five base models demonstrate that CAR outperforms almost all baselines.

Modelli più potenti NON sono Insegnanti più efficaci per il Tuning dell'Istruzione

Stronger Models are NOT Stronger Teachers for Instruction Tuning

Abstract

Support