고품질 데이터를 활용하여 LLMs로부터 긴 출력을 얻기 위한 최소한의 조정
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
저자: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
초록
대형 언어 모델이 긴 문맥을 지원하기 위해 급속하게 발전함에 따라, 그들의 능력에는 긴 길이의 출력을 생성하는 능력에 대한 현저한 불균형이 있습니다. 최근 연구는 이 불균형의 주요 원인이 정렬 훈련 중에 긴 출력을 가진 데이터의 부족에서 비롯될 수 있다고 제안합니다. 이 관찰을 고려하여, 갭을 메우는 데이터로 기초 모델을 재정렬하는 시도가 이루어지고, 이로 인해 지시된 경우 긴 출력을 생성할 수 있는 모델이 생성됩니다. 본 논문에서는 긴 출력을 위해 모델을 튜닝하는 데 데이터 품질의 영향과 인간 정렬(지시 또는 채팅) 모델의 시작점에서 그렇게 하는 가능성을 탐구합니다. 신중한 데이터 선별을 통해 우리는 조정된 모델에서 성능 향상을 달성할 수 있음을 보여주며, 훈련 데이터 인스턴스와 컴퓨팅의 소량만 사용하여도 유사한 성능 향상이 가능함을 보여줍니다. 또한, 우리는 이러한 방법을 여러 모델에 적용하여 이러한 접근 방식의 일반화 가능성을 평가합니다. 우리의 연구 결과는, 기본 설정에서 긴 출력을 생성하는 능력이 모델마다 다르지만, 우리가 경험한 모든 모델에서 고품질 데이터를 사용하여 조정하는 우리의 방법은 일관되게 모든 모델에서 현저한 향상을 보여준다는 것을 시사합니다. 우리는 긴 글쓰기 능력을 튜닝하기 위한 정제된 데이터셋, 모델 튜닝 및 평가 구현, 그리고 세밀하게 조정된 모델을 모두 공개적으로 접근할 수 있도록 공개했습니다.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary