DiaSynth -- 합성 대화 생성 프레임워크
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
저자: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
초록
다양한 영역에서 학술 주제부터 일상 대화까지 도메인 특정 대화 데이터셋의 부족은 다양한 응용 프로그램을 위한 대화 시스템의 개발을 제한합니다. 기존 연구는 종종 너무 일반적인 대화 데이터셋이나 필요한 규모에 맞지 않는 특정 도메인 대화 데이터셋으로 제한됩니다. 이 간극을 해결하기 위해 우리는 DiaSynth를 소개합니다. DiaSynth는 다양한 영역에서 고품질의 맥락이 풍부한 대화를 생성할 수 있는 합성 대화 생성 프레임워크입니다. 우리의 접근 방식은 Large Language Model (LLM)과 Chain of Thought (CoT) 추론을 사용하여 자연스러운 인간 상호작용을 밀접하게 모방하는 도메인 특정 대화를 창출하는 동적 대화 생성을 통해 기존 프레임워크와 차별화됩니다. DiaSynth는 현실적인 대화를 흉내 내는 맞춤형 대화를 생성합니다. 우리는 DialogSum과 SAMSum에서 몇 가지 예시를 사용하여 합성 데이터를 생성함으로써 실험을 수행합니다. 합성 데이터로 사전 훈련된 언어 모델은 기본 모델보다 16.47% 우수한 성능을 보이며, 도메인 내 데이터와 합성 데이터로 훈련된 모델 간 비교에서 합성 데이터가 도메인 내 데이터의 분포의 90.48%를 포착할 수 있음을 보여줍니다. 생성된 데이터의 품질은 LLM의 크기와 함께 증가합니다. 이러한 결과는 DiaSynth가 전통적인 데이터 수집 방법에 대한 견고한 대안으로서의 잠재력을 입증합니다.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.Summary
AI-Generated Summary