DiaTool-DPO: Ottimizzazione Diretta delle Preferenze per Modelli Linguistici di Grande Dimensione Potenziati da Strumenti in Dialoghi Multi-Turn
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Autori: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Abstract
I Modelli Linguistici di Grande Dimensione Potenziati da Strumenti (TA-LLMs) hanno mostrato potenziale nelle applicazioni del mondo reale, ma affrontano sfide nella gestione di query incomplete e richieste fuori dallo scopo. Mentre gli approcci esistenti si basano principalmente su Fine-Tuning Supervisionato con traiettorie esperte, proponiamo DiaTool-DPO, un metodo innovativo che migliora le capacità dialogiche dei TA-LLM attraverso l'ottimizzazione diretta delle preferenze. Modelliamo le interazioni dei TA-LLM come un Processo Decisionale di Markov con 5 stati dialogici distinti e categorizziamo le query degli utenti in 3 tipi in base alle loro traiettorie di transizione di stato. Costruiamo automaticamente dataset di traiettorie accoppiate di flussi dialogici corretti e errati e introduciamo una funzione di perdita specializzata per il controllo del dialogo. La nostra valutazione completa dimostra che DiaTool-DPO si avvicina alle prestazioni di GPT-4o (94,8% nella raccolta di informazioni, 91% nel rifiuto delle chiamate agli strumenti) con miglioramenti sostanziali rispetto alla baseline (rispettivamente 44% e 9,6%) mantenendo le funzionalità principali. Il nostro approccio apre nuove possibilità per lo sviluppo di TA-LLM in grado di gestire scenari reali diversificati senza richiedere ulteriori dimostrazioni esperte o etichettatura umana.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary