소스투신스: 실제 데이터 소스에 기반을 둔 합성 데이터 생성 및 선별
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
September 12, 2024
저자: Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli
cs.AI
초록
대형 언어 모델은 여전히 구조화된 데이터, 복잡한 추론 또는 도구 사용을 활용하는 어려운 시나리오에서 고전하는 문제가 있습니다. 본 논문에서는 고가의 인간 주석에 의존하지 않고 대형 언어 모델에 새로운 기술을 가르치는 데 사용할 수 있는 Source2Synth라는 새로운 방법을 제안합니다. Source2Synth는 사용자 정의 데이터 원본을 입력으로 받아 실제 세계 소스에 근거한 중간 추론 단계를 포함하는 합성 데이터 포인트를 생성합니다. Source2Synth는 답변 가능성에 기초한 저품질 생성물을 제거함으로써 데이터 질을 향상시킵니다. 우리는 이 접근 방식의 일반성을 입증하기 위해 이를 적용하여 다음 두 가지 어려운 도메인에서 추론 능력을 테스트하고 있습니다: 다중 점프 질문 응답 (MHQA)에서 추론 능력을 테스트하며, 표 형식 질문 응답 (TQA)에서 도구 사용을 테스트합니다. 우리의 방법은 WikiSQL의 TQA에서 25.51%, HotPotQA의 MHQA에서 22.57%의 성능을 향상시킵니다.
English
Large Language Models still struggle in challenging scenarios that leverage
structured data, complex reasoning, or tool usage. In this paper, we propose
Source2Synth: a new method that can be used for teaching LLMs new skills
without relying on costly human annotations. Source2Synth takes as input a
custom data source and produces synthetic data points with intermediate
reasoning steps grounded in real-world sources. Source2Synth improves the
dataset quality by discarding low-quality generations based on their
answerability. We demonstrate the generality of this approach by applying it to
two challenging domains: we test reasoning abilities in multi-hop question
answering (MHQA), and tool usage in tabular question answering (TQA). Our
method improves performance by 25.51% for TQA on WikiSQL and 22.57% for MHQA on
HotPotQA compared to the fine-tuned baselines.Summary
AI-Generated Summary