Dialog2Flow: Vorabtraining von Soft-Kontrastiven Aktionsgesteuerten Satz-Einbettungen zur automatischen Extraktion des Dialogflusses
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction
October 24, 2024
Autoren: Sergio Burdisso, Srikanth Madikeri, Petr Motlicek
cs.AI
Zusammenfassung
Die effiziente Ableitung strukturierter Workflows aus unannotierten Dialogen bleibt eine wenig erforschte und gewaltige Herausforderung in der Computerlinguistik. Die Automatisierung dieses Prozesses könnte die manuelle Gestaltung von Workflows in neuen Bereichen erheblich beschleunigen und die Verankerung großer Sprachmodelle in domänenspezifischen Flussdiagrammen ermöglichen, was die Transparenz und Steuerbarkeit verbessert. In diesem Artikel stellen wir Dialog2Flow (D2F)-Einbettungen vor, die sich von herkömmlichen Satzeinbettungen unterscheiden, indem sie Äußerungen in einen latenten Raum abbilden, in dem sie nach ihren kommunikativen und informativen Funktionen gruppiert werden (d. h. die Aktionen, die sie repräsentieren). D2F ermöglicht die Modellierung von Dialogen als kontinuierliche Trajektorien in einem latenten Raum mit unterschiedlichen aktionsbezogenen Regionen. Durch Clustering von D2F-Einbettungen wird der latente Raum quantisiert, und Dialoge können in Sequenzen von Region-/Aktions-IDs umgewandelt werden, was die Extraktion des zugrunde liegenden Workflows erleichtert. Um D2F vorzuschulen, erstellen wir einen umfassenden Datensatz, indem wir zwanzig aufgabenorientierte Dialogdatensätze mit normalisierten Aktionsannotationen pro Runde vereinheitlichen. Wir führen auch eine neuartige weiche kontrastive Verlustfunktion ein, die die semantischen Informationen dieser Aktionen nutzt, um den Repräsentationslernprozess zu lenken, und zeigen eine überlegene Leistung im Vergleich zum Standard überwachten kontrastiven Verlust. Die Evaluation gegen verschiedene Satzeinbettungen, einschließlich dialogspezifischer, zeigt, dass D2F überlegene qualitative und quantitative Ergebnisse in verschiedenen Bereichen liefert.
English
Efficiently deriving structured workflows from unannotated dialogs remains an
underexplored and formidable challenge in computational linguistics. Automating
this process could significantly accelerate the manual design of workflows in
new domains and enable the grounding of large language models in
domain-specific flowcharts, enhancing transparency and controllability. In this
paper, we introduce Dialog2Flow (D2F) embeddings, which differ from
conventional sentence embeddings by mapping utterances to a latent space where
they are grouped according to their communicative and informative functions
(i.e., the actions they represent). D2F allows for modeling dialogs as
continuous trajectories in a latent space with distinct action-related regions.
By clustering D2F embeddings, the latent space is quantized, and dialogs can be
converted into sequences of region/action IDs, facilitating the extraction of
the underlying workflow. To pre-train D2F, we build a comprehensive dataset by
unifying twenty task-oriented dialog datasets with normalized per-turn action
annotations. We also introduce a novel soft contrastive loss that leverages the
semantic information of these actions to guide the representation learning
process, showing superior performance compared to standard supervised
contrastive loss. Evaluation against various sentence embeddings, including
dialog-specific ones, demonstrates that D2F yields superior qualitative and
quantitative results across diverse domains.Summary
AI-Generated Summary