대규모 데이터 선택의 재고찰: 무작위 선택이 거의 모든 것을 해결한다.
Rethinking Data Selection at Scale: Random Selection is Almost All You Need
October 12, 2024
저자: Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
cs.AI
초록
지도 미세 조정(Supervised fine-tuning, SFT)은 대형 언어 모델(Large Language Models, LLMs)을 인간의 지시와 조율하는 데 중요합니다. SFT 중 주요 목표는 더 큰 데이터 풀에서 작지만 대표적인 학습 데이터 하위 집합을 선택하여, 이 하위 집합으로 미세 조정을 수행하면 전체 데이터셋을 사용한 결과와 비교 가능하거나 더 나은 결과를 달성하는 것입니다. 그러나 대부분의 기존 데이터 선택 기술은 소규모 데이터 풀을 대상으로 설계되어 있어 현실 세계의 SFT 시나리오의 요구를 충족시키지 못합니다. 본 논문에서는 외부 모델 지원에 의존하지 않는 몇 가지 자가 점수화 방법을 200만 규모의 데이터셋에서 복제하고, 이러한 대규모 데이터 풀을 다룰 때 대부분의 방법이 임의 선택을 크게 능가하기 어려움을 발견했습니다. 게다가, 우리의 비교는 SFT 중 데이터 선택의 다양성이 단순히 고품질 데이터에 집중하는 것보다 더 중요하다는 것을 시사합니다. 또한 현재 몇 가지 접근법의 한계를 분석하여, 이러한 방법이 대규모 데이터셋에서 성능이 저하되고 이러한 맥락에 부적합한 이유를 설명했습니다. 마지막으로, 토큰 길이에 따라 데이터를 필터링하는 것이 결과를 개선하는 안정적이고 효율적인 방법임을 발견했습니다. 특히 긴 텍스트 데이터를 학습할 때 이 방법은 Llama3와 같이 상대적으로 약한 기본 모델에 매우 유익합니다.
English
Supervised fine-tuning (SFT) is crucial for aligning Large Language Models
(LLMs) with human instructions. The primary goal during SFT is to select a
small yet representative subset of training data from the larger pool, such
that fine-tuning with this subset achieves results comparable to or even
exceeding those obtained using the entire dataset. However, most existing data
selection techniques are designed for small-scale data pools, which fail to
meet the demands of real-world SFT scenarios. In this paper, we replicated
several self-scoring methods those that do not rely on external model
assistance on two million scale datasets, and found that nearly all methods
struggled to significantly outperform random selection when dealing with such
large-scale data pools. Moreover, our comparisons suggest that, during SFT,
diversity in data selection is more critical than simply focusing on high
quality data. We also analyzed the limitations of several current approaches,
explaining why they perform poorly on large-scale datasets and why they are
unsuitable for such contexts. Finally, we found that filtering data by token
length offers a stable and efficient method for improving results. This
approach, particularly when training on long text data, proves highly
beneficial for relatively weaker base models, such as Llama3.Summary
AI-Generated Summary