ChatPaper.aiChatPaper

효율적인 지시어 미세 조정을 위한 신경망 기반 데이터 가치 평가

Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

February 14, 2025
저자: Ishika Agarwal, Dilek Hakkani-Tür
cs.AI

초록

영향 함수(Influence functions)는 모델 학습에 대한 중요한 통찰을 제공하지만, 기존 방법들은 높은 계산 비용과 제한된 일반화 능력으로 인해 어려움을 겪고 있습니다. 특히, 최근 연구들은 언어 모델을 사용하여 데이터의 영향을 계산하기 위한 다양한 메트릭과 알고리즘을 제안했지만, 이러한 방법들은 대규모 모델과 데이터셋에 대해 확장성이 떨어집니다. 이는 계산을 위해 필요한 고비용의 순방향 및 역방향 패스, 대규모 모델을 저장하기 위한 상당한 메모리 요구 사항, 그리고 새로운 데이터에 대한 영향 추정의 낮은 일반화 능력 때문입니다. 본 논문에서는 소규모 신경망(우리는 이를 InfluenceNetwork라고 부름)을 사용하여 영향 값을 추정하는 방법을 탐구하며, 최대 99%의 비용 절감을 달성했습니다. 우리의 평가 결과, 전체 언어 모델 크기의 단 0.0027%에 불과한 모델(7B 및 8B 버전 사용)로도 영향 값을 추정할 수 있음을 보여줍니다. 우리는 영향 값을 추정하기 위한 알고리즘(NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning)을 일반 지시어 미세 조정을 위한 하위 집합 선택 작업에 적용했습니다. 연구에서는 네 가지 최신 영향 함수를 포함시켰으며, NN-CIFT와 원래의 영향 함수 간에 성능 저하 없이도 큰 속도 향상을 달성했음을 보여줍니다. 또한, NN-CIFT의 하이퍼파라미터에 대한 심층 분석을 제공합니다. 우리의 방법에 대한 코드는 여기에서 확인할 수 있습니다: https://github.com/agarwalishika/NN-CIFT.
English
Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks -- which we refer to as the InfluenceNetwork -- to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

Summary

AI-Generated Summary

PDF12February 18, 2025