Dialog2Flow: Pre-addestramento di Embedding di Frasi Azione-Driven Soft-Contrastive per l'Estrazione Automatica del Flusso di Dialogo
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction
October 24, 2024
Autori: Sergio Burdisso, Srikanth Madikeri, Petr Motlicek
cs.AI
Abstract
Derivare in modo efficiente flussi di lavoro strutturati da dialoghi non annotati rimane una sfida poco esplorata e formidabile nella linguistica computazionale. Automatizzare questo processo potrebbe accelerare significativamente la progettazione manuale di flussi di lavoro in nuovi domini e consentire l'ancoraggio di grandi modelli linguistici in diagrammi di flusso specifici del dominio, migliorando la trasparenza e la controllabilità. In questo articolo, presentiamo gli embedding Dialog2Flow (D2F), che si differenziano dagli embedding di frasi convenzionali mappando le affermazioni in uno spazio latente dove vengono raggruppate in base alle loro funzioni comunicative e informative (ossia, le azioni che rappresentano). D2F consente di modellare i dialoghi come traiettorie continue in uno spazio latente con regioni distinte correlate alle azioni. Attraverso il clustering degli embedding D2F, lo spazio latente viene quantizzato e i dialoghi possono essere convertiti in sequenze di ID di regione/azione, facilitando l'estrazione del flusso di lavoro sottostante. Per il pre-addestramento di D2F, costruiamo un dataset esaustivo unificando venti dataset di dialoghi orientati al compito con annotazioni normalizzate per azione per turno. Introduciamo inoltre una nuova perdita contrastiva morbida che sfrutta le informazioni semantiche di queste azioni per guidare il processo di apprendimento della rappresentazione, mostrando prestazioni superiori rispetto alla perdita contrastiva supervisionata standard. La valutazione contro vari embedding di frasi, inclusi quelli specifici per i dialoghi, dimostra che D2F produce risultati qualitativi e quantitativi superiori in diversi domini.
English
Efficiently deriving structured workflows from unannotated dialogs remains an
underexplored and formidable challenge in computational linguistics. Automating
this process could significantly accelerate the manual design of workflows in
new domains and enable the grounding of large language models in
domain-specific flowcharts, enhancing transparency and controllability. In this
paper, we introduce Dialog2Flow (D2F) embeddings, which differ from
conventional sentence embeddings by mapping utterances to a latent space where
they are grouped according to their communicative and informative functions
(i.e., the actions they represent). D2F allows for modeling dialogs as
continuous trajectories in a latent space with distinct action-related regions.
By clustering D2F embeddings, the latent space is quantized, and dialogs can be
converted into sequences of region/action IDs, facilitating the extraction of
the underlying workflow. To pre-train D2F, we build a comprehensive dataset by
unifying twenty task-oriented dialog datasets with normalized per-turn action
annotations. We also introduce a novel soft contrastive loss that leverages the
semantic information of these actions to guide the representation learning
process, showing superior performance compared to standard supervised
contrastive loss. Evaluation against various sentence embeddings, including
dialog-specific ones, demonstrates that D2F yields superior qualitative and
quantitative results across diverse domains.Summary
AI-Generated Summary