단위 테스트 생성을 위한 대규모 언어 모델의 매개변수 효율적인 파인튜닝: 경험적 연구
Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study
November 4, 2024
저자: André Storhaug, Jingyue Li
cs.AI
초록
대규모 언어 모델(Large Language Models, LLMs)인 GitHub Copilot과 같은 것들의 등장은 코드 생성에서 특히 프로그래머들의 생산성을 크게 향상시켰습니다. 그러나 이러한 모델들은 종종 세밀한 조정 없이는 실제 업무에서 어려움을 겪습니다. LLMs가 점점 더 크고 성능이 향상됨에 따라 전문화된 작업을 위한 세밀한 조정이 점점 더 비용이 많이 들어가게 됩니다. 모델 파라미터 효율적인 세밀한 조정(Parameter-efficient Fine-Tuning, PEFT) 방법은 모델 파라미터의 일부만 세밀하게 조정하여 LLMs의 조정 비용을 줄이면서 성능을 유지하는 유망한 해결책을 제공합니다. 기존 연구에서는 PEFT와 LLMs를 다양한 코드 관련 작업에 활용하고 PEFT 기술의 효과는 작업에 따라 다르다는 것을 발견했습니다. 단위 테스트 생성에 PEFT 기술을 적용한 연구는 아직 미비합니다. 최신 기술은 LLMs를 전체 세밀한 조정하여 단위 테스트를 생성하는 데 사용됩니다. 본 논문에서는 LoRA, (IA)^3, 프롬프트 튜닝을 포함한 전체 세밀한 조정과 다양한 PEFT 방법을 다양한 모델 아키텍처와 크기에 걸쳐 조사합니다. 우리는 잘 알려진 벤치마크 데이터셋을 사용하여 단위 테스트 생성의 효과를 평가합니다. 우리의 연구 결과는 PEFT 방법이 전문화된 세밀한 조정을 더 접근 가능하고 비용 효율적으로 만들어 단위 테스트 생성에 대한 전체 세밀한 조정과 유사한 성능을 제공할 수 있다는 것을 보여줍니다. 특히, 프롬프트 튜닝은 비용과 자원 활용 측면에서 가장 효과적이며, LoRA는 여러 경우에 전체 세밀한 조정의 효과를 달성합니다.
English
The advent of large language models (LLMs) like GitHub Copilot has
significantly enhanced programmers' productivity, particularly in code
generation. However, these models often struggle with real-world tasks without
fine-tuning. As LLMs grow larger and more performant, fine-tuning for
specialized tasks becomes increasingly expensive. Parameter-efficient
fine-tuning (PEFT) methods, which fine-tune only a subset of model parameters,
offer a promising solution by reducing the computational costs of tuning LLMs
while maintaining their performance. Existing studies have explored using PEFT
and LLMs for various code-related tasks and found that the effectiveness of
PEFT techniques is task-dependent. The application of PEFT techniques in unit
test generation remains underexplored. The state-of-the-art is limited to using
LLMs with full fine-tuning to generate unit tests. This paper investigates both
full fine-tuning and various PEFT methods, including LoRA, (IA)^3, and prompt
tuning, across different model architectures and sizes. We use well-established
benchmark datasets to evaluate their effectiveness in unit test generation. Our
findings show that PEFT methods can deliver performance comparable to full
fine-tuning for unit test generation, making specialized fine-tuning more
accessible and cost-effective. Notably, prompt tuning is the most effective in
terms of cost and resource utilization, while LoRA approaches the effectiveness
of full fine-tuning in several cases.Summary
AI-Generated Summary