Dialog2Flow : Pré-entraînement des plongements de phrases basé sur l'action et le contraste doux pour l'extraction automatique du flux de dialogues

Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

October 24, 2024
Auteurs: Sergio Burdisso, Srikanth Madikeri, Petr Motlicek
cs.AI

Résumé

Dériver efficacement des workflows structurés à partir de dialogues non annotés reste un défi sous-exploré et redoutable en linguistique computationnelle. Automatiser ce processus pourrait accélérer considérablement la conception manuelle de workflows dans de nouveaux domaines et permettre l'ancrage de grands modèles linguistiques dans des organigrammes spécifiques au domaine, améliorant ainsi la transparence et la contrôlabilité. Dans cet article, nous introduisons les embeddings Dialog2Flow (D2F), qui se distinguent des embeddings de phrases conventionnels en cartographiant les énoncés dans un espace latent où ils sont regroupés selon leurs fonctions communicatives et informatives (c'est-à-dire les actions qu'ils représentent). D2F permet de modéliser les dialogues comme des trajectoires continues dans un espace latent avec des régions distinctes liées aux actions. En regroupant les embeddings D2F, l'espace latent est quantifié, et les dialogues peuvent être convertis en séquences d'identifiants de région/action, facilitant l'extraction du workflow sous-jacent. Pour pré-entraîner D2F, nous construisons un ensemble de données complet en unifiant vingt ensembles de données de dialogues orientés vers des tâches avec des annotations d'actions normalisées par tour. Nous introduisons également une nouvelle perte contrastive douce qui exploite les informations sémantiques de ces actions pour guider le processus d'apprentissage de la représentation, montrant des performances supérieures par rapport à la perte contrastive supervisée standard. L'évaluation par rapport à divers embeddings de phrases, y compris ceux spécifiques aux dialogues, démontre que D2F produit des résultats qualitatifs et quantitatifs supérieurs dans divers domaines.
English
Efficiently deriving structured workflows from unannotated dialogs remains an underexplored and formidable challenge in computational linguistics. Automating this process could significantly accelerate the manual design of workflows in new domains and enable the grounding of large language models in domain-specific flowcharts, enhancing transparency and controllability. In this paper, we introduce Dialog2Flow (D2F) embeddings, which differ from conventional sentence embeddings by mapping utterances to a latent space where they are grouped according to their communicative and informative functions (i.e., the actions they represent). D2F allows for modeling dialogs as continuous trajectories in a latent space with distinct action-related regions. By clustering D2F embeddings, the latent space is quantized, and dialogs can be converted into sequences of region/action IDs, facilitating the extraction of the underlying workflow. To pre-train D2F, we build a comprehensive dataset by unifying twenty task-oriented dialog datasets with normalized per-turn action annotations. We also introduce a novel soft contrastive loss that leverages the semantic information of these actions to guide the representation learning process, showing superior performance compared to standard supervised contrastive loss. Evaluation against various sentence embeddings, including dialog-specific ones, demonstrates that D2F yields superior qualitative and quantitative results across diverse domains.

Summary

AI-Generated Summary

PDF52November 16, 2024