ChatPaper.aiChatPaper

CLIPPER: 압축을 통한 장문맥 합성 데이터 생성

CLIPPER: Compression enables long-context synthetic data generation

February 20, 2025
저자: Chau Minh Pham, Yapei Chang, Mohit Iyyer
cs.AI

초록

LLM 개발자들은 점점 더 합성 데이터에 의존하고 있지만, 복잡한 장문 맥락 추론 작업을 위한 고품질 데이터 생성은 여전히 어려운 과제로 남아 있습니다. 우리는 서술적 주장 검증(narrative claim verification)에 특화된 합성 데이터 생성을 위한 압축 기반 접근법인 CLIPPER를 소개합니다. 이 작업은 주어진 주장을 검증하기 위해 책 전체를 추론해야 하는 과제입니다. CLIPPER는 책의 원본 텍스트에서 직접 주장을 생성하는 방식(이는 인공물이 가득한 주장을 초래함) 대신, 먼저 책을 챕터 개요와 책 요약으로 압축한 후, 이러한 중간 표현을 사용하여 복잡한 주장과 해당 사고 사슬(chain-of-thought)을 생성합니다. 단순한 접근법과 비교했을 때, CLIPPER는 더 타당하고 근거가 있으며 복잡한 주장을 생성합니다. CLIPPER를 사용하여 우리는 19,000개의 합성 책 주장 데이터셋을 구축했으며, 이는 원본 텍스트와 사고 사슬 추론과 짝을 이룹니다. 이를 통해 세 개의 오픈 웨이트 모델을 미세 조정했습니다. 우리의 최고 모델은 서술적 주장 검증에서 획기적인 결과를 달성했으며(테스트 세트에서 28%에서 76% 정확도로 향상), NoCha 리더보드에서 10B 미만 모델의 새로운 최첨단(state-of-the-art) 성능을 기록했습니다. 추가 분석 결과, 우리의 모델은 더 상세하고 근거가 있는 사고 사슬 추론을 생성하면서도 다른 서술 이해 작업(예: NarrativeQA)에서도 성능이 향상되었음을 보여줍니다.
English
LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

Summary

AI-Generated Summary

PDF52February 21, 2025