SemiEvol: LLM 적응을 위한 준지도 학습 파인튜닝

SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation

October 17, 2024
저자: Junyu Luo, Xiao Luo, Xiusi Chen, Zhiping Xiao, Wei Ju, Ming Zhang
cs.AI

초록

지도 미세 조정(Supervised fine-tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)을 특정 도메인이나 작업에 적응시키는 데 중요합니다. 그러나 실제 응용 프로그램에서는 한정된 양의 레이블이 지정된 데이터만 사용 가능하며, 이는 지도 미세 조정이 만족스러운 결과를 얻는 데 심각한 어려움을 겪게 합니다. 따라서 LLM 미세 조정을 위해 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 활용할 수 있는 데이터 효율적인 프레임워크가 매우 기대됩니다. 이를 위해 우리는 SemiEvol이라는 반복 및 선택 방식을 통한 LLM 적응을 위한 준지도 미세 조정 프레임워크를 소개합니다. 지식 전파를 위해 SemiEvol은 레이블이 지정된 데이터에서 레이블이 지정되지 않은 데이터로 지식을 전파하기 위해 가중치 내 및 문맥 내 방법을 모두 채택하는 이중 접근 방식을 채택합니다. 지식 선택을 위해 SemiEvol은 고품질 가짜 응답 샘플을 선택하는 협력 학습 메커니즘을 통합합니다. 우리는 GPT-4o-mini와 Llama-3.1을 사용하여 일곱 가지 일반 또는 도메인별 데이터셋에서 실험을 수행했으며, 대상 데이터의 모델 성능에서 상당한 향상을 보여주었습니다. 더 나아가, SemiEvol을 지도 미세 조정(SFT) 및 자체 진화 방법과 비교하여 혼합 데이터 시나리오에서의 실용성을 강조했습니다.
English
Supervised fine-tuning (SFT) is crucial in adapting large language models (LLMs) to a specific domain or task. However, only a limited amount of labeled data is available in practical applications, which poses a severe challenge for SFT in yielding satisfactory results. Therefore, a data-efficient framework that can fully exploit labeled and unlabeled data for LLM fine-tuning is highly anticipated. Towards this end, we introduce a semi-supervised fine-tuning framework named SemiEvol for LLM adaptation from a propagate-and-select manner. For knowledge propagation, SemiEvol adopts a bi-level approach, propagating knowledge from labeled data to unlabeled data through both in-weight and in-context methods. For knowledge selection, SemiEvol incorporates a collaborative learning mechanism, selecting higher-quality pseudo-response samples. We conducted experiments using GPT-4o-mini and Llama-3.1 on seven general or domain-specific datasets, demonstrating significant improvements in model performance on target data. Furthermore, we compared SemiEvol with SFT and self-evolution methods, highlighting its practicality in hybrid data scenarios.

Summary

AI-Generated Summary

PDF452November 16, 2024