PAFT: Fine-Tuning Indipendente dal Prompt
PAFT: Prompt-Agnostic Fine-Tuning
February 18, 2025
Autori: Chenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu
cs.AI
Abstract
Sebbene i Large Language Model (LLM) si adattino bene ai task downstream dopo il fine-tuning, questa adattabilità spesso compromette la robustezza dei prompt, poiché anche piccole variazioni nei prompt possono degradare significativamente le prestazioni. Per affrontare questo problema, proponiamo il Prompt-Agnostic Fine-Tuning (PAFT), un approccio semplice ma efficace che regola dinamicamente i prompt durante il fine-tuning. Questo incoraggia il modello a imparare i principi sottostanti del task piuttosto che adattarsi eccessivamente a formulazioni specifiche dei prompt. PAFT opera in due fasi: prima, viene costruito un insieme diversificato di prompt candidati sintetici e significativi. Secondo, durante il fine-tuning, i prompt vengono campionati casualmente da questo insieme per creare input di training dinamici. Esperimenti estesi su vari dataset e LLM dimostrano che i modelli addestrati con PAFT mostrano una forte robustezza e generalizzazione su un'ampia gamma di prompt, inclusi quelli mai visti. Questa robustezza migliorata aumenta sia le prestazioni del modello che la velocità di inferenza, mantenendo al contempo l'efficienza dell'addestramento. Studi di ablazione confermano ulteriormente l'efficacia di PAFT.
English
While Large Language Models (LLMs) adapt well to downstream tasks after
fine-tuning, this adaptability often compromises prompt robustness, as even
minor prompt variations can significantly degrade performance. To address this,
we propose Prompt-Agnostic Fine-Tuning(PAFT), a simple yet effective approach
that dynamically adjusts prompts during fine-tuning. This encourages the model
to learn underlying task principles rather than overfitting to specific prompt
formulations. PAFT operates in two stages: First, a diverse set of meaningful,
synthetic candidate prompts is constructed. Second, during fine-tuning, prompts
are randomly sampled from this set to create dynamic training inputs. Extensive
experiments across diverse datasets and LLMs demonstrate that models trained
with PAFT exhibit strong robustness and generalization across a wide range of
prompts, including unseen ones. This enhanced robustness improves both model
performance and inference speed while maintaining training efficiency. Ablation
studies further confirm the effectiveness of PAFT.Summary
AI-Generated Summary