IOPO: Potenziare LLM con Istruzioni Complesse Seguendo l'ottimizzazione delle Preferenze Input-Output

IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

November 9, 2024
Autori: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
cs.AI

Abstract

Nel campo dei grandi modelli linguistici (LLM), la capacità dei modelli di seguire accuratamente le istruzioni è fondamentale poiché sempre più agenti e applicazioni fanno uso dei LLM per la costruzione, dove la complessità delle istruzioni sta aumentando rapidamente. Tuttavia, da un lato, esiste solo una certa quantità di dati per valutare istruzioni complesse; d'altra parte, non ci sono algoritmi dedicati per migliorare la capacità di seguire istruzioni complesse. A questo scopo, questo articolo introduce TRACE, un benchmark per migliorare e valutare la capacità di seguire istruzioni complesse, che consiste in 120K dati di addestramento e 1K dati di valutazione. Inoltre, proponiamo il metodo di allineamento IOPO (Ottimizzazione delle Preferenze Input-Output) che tiene conto delle coppie di preferenze di input e output, dove i LLM si allineano non solo rapidamente con le preferenze di risposta ma esplorano anche meticolosamente le preferenze delle istruzioni. Estesi esperimenti su dataset sia in-domain che out-of-domain confermano l'efficacia di IOPO, mostrando miglioramenti del 8,15% e 2,18% sui dati in-domain e del 6,29% e 3,13% sui dati out-of-domain rispetto a SFT e DPO rispettivamente.
English
In the realm of large language models (LLMs), the ability of models to accurately follow instructions is paramount as more agents and applications leverage LLMs for construction, where the complexity of instructions are rapidly increasing. However, on the one hand, there is only a certain amount of complex instruction evaluation data; on the other hand, there are no dedicated algorithms to improve the ability to follow complex instructions. To this end, this paper introduces TRACE, a benchmark for improving and evaluating the complex instructionfollowing ability, which consists of 120K training data and 1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference Optimization) alignment method which takes both input and output preference pairs into consideration, where LLMs not only rapidly align with response preferences but also meticulously explore the instruction preferences. Extensive experiments on both in-domain and outof-domain datasets confirm the effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and 6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.

Summary

AI-Generated Summary

PDF186November 12, 2024