SPaR: Gioco in autonomia con perfezionamento della ricerca ad albero per migliorare il seguire istruzioni nei grandi modelli linguistici

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

December 16, 2024
Autori: Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang
cs.AI

Abstract

Il seguire le istruzioni è una capacità fondamentale dei modelli linguistici, che richiede al modello di riconoscere anche i requisiti più sottili nelle istruzioni e di rifletterli accuratamente nel suo output. Tale abilità è particolarmente adatta e spesso ottimizzata dall'apprendimento delle preferenze. Tuttavia, i metodi esistenti spesso campionano direttamente più risposte indipendenti dal modello quando creano coppie di preferenze. Tale pratica può introdurre variazioni di contenuto non rilevanti per determinare se l'istruzione è seguita con precisione (ad esempio, diverse espressioni sullo stesso significato), interferendo con l'obiettivo di insegnare ai modelli a riconoscere le differenze chiave che portano a un miglioramento nel seguire le istruzioni. Alla luce di ciò, presentiamo SPaR, un framework di auto-gioco che integra l'autoraffinamento della ricerca dell'albero per produrre coppie di preferenze valide e confrontabili, libere da distrazioni. Giocando contro se stesso, un modello LLM utilizza una strategia di ricerca dell'albero per perfezionare le sue risposte precedenti rispetto all'istruzione, minimizzando le variazioni non necessarie. I nostri esperimenti mostrano che un modello LLaMA3-8B, addestrato per tre iterazioni guidate da SPaR, supera GPT-4-Turbo sul benchmark IFEval senza perdere capacità generali. Inoltre, SPaR dimostra una scalabilità e trasferibilità promettenti, potenziando notevolmente modelli come GLM-4-9B e LLaMA3-70B. Identifichiamo anche come la scalabilità dell'inferezza nella ricerca dell'albero influenzerà le prestazioni del modello. Il nostro codice e i dati sono disponibili pubblicamente su https://github.com/thu-coai/SPaR.
English
Instruction-following is a fundamental capability of language models, requiring the model to recognize even the most subtle requirements in the instructions and accurately reflect them in its output. Such an ability is well-suited for and often optimized by preference learning. However, existing methods often directly sample multiple independent responses from the model when creating preference pairs. Such practice can introduce content variations irrelevant to whether the instruction is precisely followed (e.g., different expressions about the same semantic), interfering with the goal of teaching models to recognize the key differences that lead to improved instruction following. In light of this, we introduce SPaR, a self-play framework integrating tree-search self-refinement to yield valid and comparable preference pairs free from distractions. By playing against itself, an LLM employs a tree-search strategy to refine its previous responses with respect to the instruction while minimizing unnecessary variations. Our experiments show that a LLaMA3-8B model, trained over three iterations guided by SPaR, surpasses GPT-4-Turbo on the IFEval benchmark without losing general capabilities. Furthermore, SPaR demonstrates promising scalability and transferability, greatly enhancing models like GLM-4-9B and LLaMA3-70B. We also identify how inference scaling in tree search would impact model performance. Our code and data are publicly available at https://github.com/thu-coai/SPaR.

Summary

AI-Generated Summary

PDF172December 17, 2024