Parameter-efficiënte fijnafstemming van grote taalmodellen voor het genereren van unit tests: een empirische studie

Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study

November 4, 2024
Auteurs: André Storhaug, Jingyue Li
cs.AI

Samenvatting

De opkomst van grote taalmodellen (LLM's) zoals GitHub Copilot heeft aanzienlijk bijgedragen aan de productiviteit van programmeurs, met name op het gebied van codegeneratie. Echter, deze modellen worstelen vaak met taken in de echte wereld zonder fijnafstemming. Naarmate LLM's groter en krachtiger worden, wordt fijnafstemming voor gespecialiseerde taken steeds duurder. Methoden voor parameter-efficiënte fijnafstemming (PEFT), waarbij slechts een subset van modelparameters wordt afgestemd, bieden een veelbelovende oplossing door de computationele kosten van het afstemmen van LLM's te verlagen terwijl hun prestaties behouden blijven. Bestaande studies hebben onderzocht hoe PEFT en LLM's kunnen worden ingezet voor verschillende codegerelateerde taken en hebben vastgesteld dat de effectiviteit van PEFT-technieken afhankelijk is van de taak. Het gebruik van PEFT-technieken voor het genereren van unit tests is nog weinig onderzocht. De stand van de techniek beperkt zich tot het gebruik van LLM's met volledige fijnafstemming om unit tests te genereren. Dit artikel onderzoekt zowel volledige fijnafstemming als verschillende PEFT-methoden, waaronder LoRA, (IA)^3 en prompt-afstemming, over verschillende modelarchitecturen en groottes. We gebruiken goed vastgestelde benchmarkdatasets om hun effectiviteit bij het genereren van unit tests te evalueren. Onze bevindingen tonen aan dat PEFT-methoden prestaties kunnen leveren die vergelijkbaar zijn met volledige fijnafstemming voor het genereren van unit tests, waardoor gespecialiseerde fijnafstemming toegankelijker en kosteneffectiever wordt. Met name prompt-afstemming is het meest effectief wat betreft kosten en gebruik van middelen, terwijl LoRA in verschillende gevallen de effectiviteit van volledige fijnafstemming benadert.
English
The advent of large language models (LLMs) like GitHub Copilot has significantly enhanced programmers' productivity, particularly in code generation. However, these models often struggle with real-world tasks without fine-tuning. As LLMs grow larger and more performant, fine-tuning for specialized tasks becomes increasingly expensive. Parameter-efficient fine-tuning (PEFT) methods, which fine-tune only a subset of model parameters, offer a promising solution by reducing the computational costs of tuning LLMs while maintaining their performance. Existing studies have explored using PEFT and LLMs for various code-related tasks and found that the effectiveness of PEFT techniques is task-dependent. The application of PEFT techniques in unit test generation remains underexplored. The state-of-the-art is limited to using LLMs with full fine-tuning to generate unit tests. This paper investigates both full fine-tuning and various PEFT methods, including LoRA, (IA)^3, and prompt tuning, across different model architectures and sizes. We use well-established benchmark datasets to evaluate their effectiveness in unit test generation. Our findings show that PEFT methods can deliver performance comparable to full fine-tuning for unit test generation, making specialized fine-tuning more accessible and cost-effective. Notably, prompt tuning is the most effective in terms of cost and resource utilization, while LoRA approaches the effectiveness of full fine-tuning in several cases.

Summary

AI-Generated Summary

PDF93November 14, 2024