Modelli più potenti NON sono Insegnanti più efficaci per il Tuning dell'Istruzione
Stronger Models are NOT Stronger Teachers for Instruction Tuning
November 11, 2024
Autori: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Abstract
L'ottimizzazione delle istruzioni è stata ampiamente adottata per garantire che i grandi modelli linguistici (LLM) seguano efficacemente le istruzioni degli utenti. Le capacità di seguire le istruzioni dei LLM dipendono pesantemente dai set di dati di istruzioni utilizzati per l'ottimizzazione. Di recente, sono emersi set di dati di istruzioni sintetiche come soluzione economicamente valida per fornire istruzioni diverse e di alta qualità ai LLM. Tuttavia, gli approcci esistenti generalmente assumono che modelli più grandi o più potenti siano insegnanti più efficaci per l'ottimizzazione delle istruzioni e quindi adottano semplicemente questi modelli come generatori di risposte alle istruzioni sintetiche. In questo articolo, mettiamo in discussione questa assunzione comunemente adottata. I nostri ampi esperimenti su cinque modelli di base e venti generatori di risposte rivelano che modelli più grandi e più potenti non sono necessariamente insegnanti più efficaci per modelli più piccoli. Ci riferiamo a questo fenomeno come Paradosso dei Modelli Più Grandi. Osserviamo che le metriche esistenti non riescono a prevedere con precisione l'efficacia dei generatori di risposte poiché ignorano la compatibilità tra insegnanti e modelli di base in fase di sintonizzazione. Sviluppiamo quindi una nuova metrica, chiamata Ricompensa Corretta per la Compatibilità (CAR), per misurare l'efficacia dei generatori di risposte. I nostri esperimenti su cinque modelli di base dimostrano che CAR supera quasi tutti i confronti.
English
Instruction tuning has been widely adopted to ensure large language models
(LLMs) follow user instructions effectively. The resulting
instruction-following capabilities of LLMs heavily rely on the instruction
datasets used for tuning. Recently, synthetic instruction datasets have emerged
as an economically viable solution to provide LLMs diverse and high-quality
instructions. However, existing approaches typically assume that larger or
stronger models are stronger teachers for instruction tuning, and hence simply
adopt these models as response generators to the synthetic instructions. In
this paper, we challenge this commonly-adopted assumption. Our extensive
experiments across five base models and twenty response generators reveal that
larger and stronger models are not necessarily stronger teachers of smaller
models. We refer to this phenomenon as the Larger Models' Paradox. We observe
that existing metrics cannot precisely predict the effectiveness of response
generators since they ignore the compatibility between teachers and base models
being fine-tuned. We thus develop a novel metric, named as
Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response
generators. Our experiments across five base models demonstrate that CAR
outperforms almost all baselines.Summary
AI-Generated Summary