IOPO: Potenziare LLM con Istruzioni Complesse Seguendo l'ottimizzazione delle Preferenze Input-Output
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
November 9, 2024
Autori: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
cs.AI
Abstract
Nel campo dei grandi modelli linguistici (LLM), la capacità dei modelli di seguire accuratamente le istruzioni è fondamentale poiché sempre più agenti e applicazioni fanno uso dei LLM per la costruzione, dove la complessità delle istruzioni sta aumentando rapidamente. Tuttavia, da un lato, esiste solo una certa quantità di dati per valutare istruzioni complesse; d'altra parte, non ci sono algoritmi dedicati per migliorare la capacità di seguire istruzioni complesse. A questo scopo, questo articolo introduce TRACE, un benchmark per migliorare e valutare la capacità di seguire istruzioni complesse, che consiste in 120K dati di addestramento e 1K dati di valutazione. Inoltre, proponiamo il metodo di allineamento IOPO (Ottimizzazione delle Preferenze Input-Output) che tiene conto delle coppie di preferenze di input e output, dove i LLM si allineano non solo rapidamente con le preferenze di risposta ma esplorano anche meticolosamente le preferenze delle istruzioni. Estesi esperimenti su dataset sia in-domain che out-of-domain confermano l'efficacia di IOPO, mostrando miglioramenti del 8,15% e 2,18% sui dati in-domain e del 6,29% e 3,13% sui dati out-of-domain rispetto a SFT e DPO rispettivamente.
English
In the realm of large language models (LLMs), the ability of models to
accurately follow instructions is paramount as more agents and applications
leverage LLMs for construction, where the complexity of instructions are
rapidly increasing. However, on the one hand, there is only a certain amount of
complex instruction evaluation data; on the other hand, there are no dedicated
algorithms to improve the ability to follow complex instructions. To this end,
this paper introduces TRACE, a benchmark for improving and evaluating the
complex instructionfollowing ability, which consists of 120K training data and
1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference
Optimization) alignment method which takes both input and output preference
pairs into consideration, where LLMs not only rapidly align with response
preferences but also meticulously explore the instruction preferences.
Extensive experiments on both in-domain and outof-domain datasets confirm the
effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and
6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.Summary
AI-Generated Summary