SPaR: Gioco in autonomia con perfezionamento della ricerca ad albero per migliorare il seguire istruzioni nei grandi modelli linguistici
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models
December 16, 2024
Autori: Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
cs.AI
Abstract
Il seguire le istruzioni è una capacità fondamentale dei modelli linguistici, che richiede al modello di riconoscere anche i requisiti più sottili nelle istruzioni e di rifletterli accuratamente nel suo output. Tale abilità è particolarmente adatta e spesso ottimizzata dall'apprendimento delle preferenze. Tuttavia, i metodi esistenti spesso campionano direttamente più risposte indipendenti dal modello quando creano coppie di preferenze. Tale pratica può introdurre variazioni di contenuto non rilevanti per determinare se l'istruzione è seguita con precisione (ad esempio, diverse espressioni sullo stesso significato), interferendo con l'obiettivo di insegnare ai modelli a riconoscere le differenze chiave che portano a un miglioramento nel seguire le istruzioni. Alla luce di ciò, presentiamo SPaR, un framework di auto-gioco che integra l'autoraffinamento della ricerca dell'albero per produrre coppie di preferenze valide e confrontabili, libere da distrazioni. Giocando contro se stesso, un modello LLM utilizza una strategia di ricerca dell'albero per perfezionare le sue risposte precedenti rispetto all'istruzione, minimizzando le variazioni non necessarie. I nostri esperimenti mostrano che un modello LLaMA3-8B, addestrato per tre iterazioni guidate da SPaR, supera GPT-4-Turbo sul benchmark IFEval senza perdere capacità generali. Inoltre, SPaR dimostra una scalabilità e trasferibilità promettenti, potenziando notevolmente modelli come GLM-4-9B e LLaMA3-70B. Identifichiamo anche come la scalabilità dell'inferezza nella ricerca dell'albero influenzerà le prestazioni del modello. Il nostro codice e i dati sono disponibili pubblicamente su https://github.com/thu-coai/SPaR.
English
Instruction-following is a fundamental capability of language models,
requiring the model to recognize even the most subtle requirements in the
instructions and accurately reflect them in its output. Such an ability is
well-suited for and often optimized by preference learning. However, existing
methods often directly sample multiple independent responses from the model
when creating preference pairs. Such practice can introduce content variations
irrelevant to whether the instruction is precisely followed (e.g., different
expressions about the same semantic), interfering with the goal of teaching
models to recognize the key differences that lead to improved instruction
following. In light of this, we introduce SPaR, a self-play framework
integrating tree-search self-refinement to yield valid and comparable
preference pairs free from distractions. By playing against itself, an LLM
employs a tree-search strategy to refine its previous responses with respect to
the instruction while minimizing unnecessary variations. Our experiments show
that a LLaMA3-8B model, trained over three iterations guided by SPaR, surpasses
GPT-4-Turbo on the IFEval benchmark without losing general capabilities.
Furthermore, SPaR demonstrates promising scalability and transferability,
greatly enhancing models like GLM-4-9B and LLaMA3-70B. We also identify how
inference scaling in tree search would impact model performance. Our code and
data are publicly available at https://github.com/thu-coai/SPaR.Summary
AI-Generated Summary