ChatPaper.aiChatPaper

콘도르: 지식 주도 데이터 합성 및 정제를 통한 LLM 정렬 향상

Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement

January 21, 2025
저자: Maosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen
cs.AI

초록

지도 미세 조정(Supervised Fine-Tuning, SFT) 데이터의 품질은 대형 언어 모델(Large Language Models, LLMs)의 대화 능력을 향상하는 데 중요한 역할을 합니다. 그러나 LLMs가 더욱 발전함에 따라 고품질의 인간 주석이 달린 SFT 데이터의 가용성은 중대한 병목 현상이 되어, 합성 훈련 데이터에 대한 의존이 더욱 필요해졌습니다. 본 연구에서는 세계 지식 트리(World Knowledge Tree)와 자기 반성 정제(Self-Reflection Refinement)를 통합한 혁신적인 이중 단계 합성 데이터 생성 프레임워크인 Condor를 소개합니다. 우리의 실험 결과는 단지 20,000개의 Condor 생성 샘플로 미세 조정된 기본 모델이 동등한 대조군에 비해 우수한 성능을 달성함을 보여줍니다. Condor의 추가 정제 단계는 LLMs의 다양한 규모(최대 720억)에서 반복적인 자체 개선을 가능하게 하여 우리의 방법의 효과를 입증합니다. 더 나아가, 후속 훈련에서 합성 데이터의 확장에 대한 우리의 조사는 성능 향상을 위한 상당한 미개척 잠재력을 드러내며, 미래 연구를 위한 유망한 방향을 열어줍니다.
English
The quality of Supervised Fine-Tuning (SFT) data plays a critical role in enhancing the conversational capabilities of Large Language Models (LLMs). However, as LLMs become more advanced, the availability of high-quality human-annotated SFT data has become a significant bottleneck, necessitating a greater reliance on synthetic training data. In this work, we introduce Condor, a novel two-stage synthetic data generation framework that incorporates World Knowledge Tree and Self-Reflection Refinement to produce high-quality SFT data at scale. Our experimental results demonstrate that a base model fine-tuned on only 20K Condor-generated samples achieves superior performance compared to counterparts. The additional refinement stage in Condor further enables iterative self-improvement for LLMs at various scales (up to 72B), validating the effectiveness of our approach. Furthermore, our investigation into the scaling for synthetic data in post-training reveals substantial unexplored potential for performance improvements, opening promising avenues for future research.

Summary

AI-Generated Summary

PDF142January 22, 2025