ChatPaper.aiChatPaper

WILDCHAT-50M: 합성 데이터의 역할에 대한 심층적인 탐구

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

January 30, 2025
저자: Benjamin Feuer, Chinmay Hegde
cs.AI

초록

언어 모델 (LLM) 사후 훈련은 DPO에서 증류(distillation)로, 행동을 정제하고 새로운 기술을 발휘할 수 있지만, 이러한 사후 훈련 기술을 지원하는 오픈 사이언스는 아직 초기 단계에 있습니다. 이러한 사후 훈련 기법의 지원을 받는 오픈 사이언스의 한계 요인 중 하나는 합성 데이터 생성 모델과 LLM 판별자의 대규모 비교 분석을 수행하는 어려움이었습니다. 이 간극을 메우기 위해, 우리는 오늘까지 가장 큰 공개 채팅 데이터셋인 WILDCHAT-50M을 소개합니다. 우리는 기존의 WildChat 데이터셋을 확장하여 GPT뿐만 아니라 0.5B에서 104B 매개변수 크기로 다양한 50개 이상의 오픈 가중치 모델로부터 응답을 포함하도록 했습니다. 우리는 포괄적인 비교 분석을 수행하고, 최근 Allen AI의 Tulu-3 SFT 혼합물보다 샘플 수의 40%만으로 우수한 RE-WILD, 우리만의 공개 SFT 혼합물을 만들어 이 데이터셋의 잠재력을 입증했습니다. 저희 데이터셋, 샘플 및 코드는 https://github.com/penfever/wildchat-50m에서 제공됩니다.
English
Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

Summary

AI-Generated Summary

PDF194January 31, 2025