Condor: Verbeter LLM-afstemming met op kennis gebaseerde gegevenssynthese en verfijning.
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement
January 21, 2025
Auteurs: Maosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
De kwaliteit van Supervised Fine-Tuning (SFT) data speelt een cruciale rol bij het verbeteren van de conversatiecapaciteiten van Large Language Models (LLM's). Naarmate LLM's geavanceerder worden, is de beschikbaarheid van hoogwaardige mens-geannoteerde SFT-gegevens een aanzienlijke bottleneck geworden, wat een grotere afhankelijkheid van synthetische trainingsgegevens noodzakelijk maakt. In dit werk introduceren we Condor, een nieuw tweestaps synthetisch gegevensgeneratiekader dat World Knowledge Tree en Self-Reflection Refinement incorporeert om op schaal hoogwaardige SFT-gegevens te produceren. Onze experimentele resultaten tonen aan dat een basismodel dat alleen is fijnafgestemd op 20K door Condor gegenereerde voorbeelden superieure prestaties behaalt in vergelijking met tegenhangers. De aanvullende verfijningsfase in Condor maakt verdere iteratieve zelfverbetering mogelijk voor LLM's op verschillende schalen (tot 72B), waarbij de effectiviteit van onze aanpak wordt bevestigd. Bovendien onthult ons onderzoek naar het schalen van synthetische gegevens in post-training aanzienlijk onbenut potentieel voor prestatieverbeteringen, wat veelbelovende mogelijkheden opent voor toekomstig onderzoek.
English
The quality of Supervised Fine-Tuning (SFT) data plays a critical role in
enhancing the conversational capabilities of Large Language Models (LLMs).
However, as LLMs become more advanced, the availability of high-quality
human-annotated SFT data has become a significant bottleneck, necessitating a
greater reliance on synthetic training data. In this work, we introduce Condor,
a novel two-stage synthetic data generation framework that incorporates World
Knowledge Tree and Self-Reflection Refinement to produce high-quality SFT data
at scale. Our experimental results demonstrate that a base model fine-tuned on
only 20K Condor-generated samples achieves superior performance compared to
counterparts. The additional refinement stage in Condor further enables
iterative self-improvement for LLMs at various scales (up to 72B), validating
the effectiveness of our approach. Furthermore, our investigation into the
scaling for synthetic data in post-training reveals substantial unexplored
potential for performance improvements, opening promising avenues for future
research.Summary
AI-Generated Summary