ChatPaper.aiChatPaper

합성 데이터 생성기로서의 언어 모델 평가

Evaluating Language Models as Synthetic Data Generators

December 4, 2024
저자: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI

초록

언어 모델 (LM) 사후 훈련에서 합성 데이터 사용이 증가함에 따라, LM의 고품질 데이터 생성 능력은 문제 해결 능력만큼 중요해졌습니다. 이전 연구들은 효과적인 데이터 생성 방법 개발에 초점을 맞추었지만, 서로 다른 LM들을 데이터 생성기로 통합된 환경에서 체계적으로 비교하는 부분이 부족했습니다. 이러한 공백을 해결하기 위해 우리는 AgoraBench를 제안합니다. 이는 LM들의 데이터 생성 능력을 평가하기 위한 표준화된 설정과 측정 항목을 제공하는 벤치마크입니다. 6개의 LM을 사용하여 1.26백만 개의 훈련 인스턴스를 합성하고 99개의 학생 모델을 훈련함으로써, LM들의 데이터 생성 능력에 관한 주요 통찰을 발견했습니다. 우선, LM들이 각각 독특한 강점을 보여주는 것을 관찰했습니다. 예를 들어, GPT-4o는 새로운 문제를 생성하는 데 뛰어나지만, Claude-3.5-Sonnet은 기존 문제를 향상시키는 데 더 뛰어납니다. 더 나아가, 분석 결과 LM의 데이터 생성 능력이 반드시 문제 해결 능력과 상관관계가 있는 것은 아니라는 것을 밝혔습니다. 대신, 응답 품질, 난해도 및 지시사항 난이도 등 데이터 품질의 여러 내재적 특성이 더 나은 지표로 작용합니다. 마지막으로, 출력 형식과 비용 효율적인 모델 선택에서 전략적 선택이 데이터 생성 효과에 상당한 영향을 미친다는 것을 입증했습니다.
English
Given the increasing use of synthetic data in language model (LM) post-training, an LM's ability to generate high-quality data has become nearly as crucial as its ability to solve problems directly. While prior works have focused on developing effective data generation methods, they lack systematic comparison of different LMs as data generators in a unified setting. To address this gap, we propose AgoraBench, a benchmark that provides standardized settings and metrics to evaluate LMs' data generation abilities. Through synthesizing 1.26 million training instances using 6 LMs and training 99 student models, we uncover key insights about LMs' data generation capabilities. First, we observe that LMs exhibit distinct strengths. For instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet performs better at enhancing existing ones. Furthermore, our analysis reveals that an LM's data generation ability doesn't necessarily correlate with its problem-solving ability. Instead, multiple intrinsic features of data quality-including response quality, perplexity, and instruction difficulty-collectively serve as better indicators. Finally, we demonstrate that strategic choices in output format and cost-conscious model selection significantly impact data generation effectiveness.

Summary

AI-Generated Summary

PDF482December 6, 2024