LLPut: Esplorazione dei Modelli Linguistici di Grandi Dimensioni per la Generazione di Input Basati su Segnalazioni di Bug
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
March 26, 2025
Autori: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI
Abstract
Gli input che inducono errori svolgono un ruolo cruciale nella diagnosi e nell'analisi dei bug software. I report di bug contengono tipicamente questi input, che gli sviluppatori estraggono per facilitare il debugging. Poiché i report di bug sono scritti in linguaggio naturale, ricerche precedenti hanno sfruttato varie tecniche di elaborazione del linguaggio naturale (NLP) per l'estrazione automatizzata degli input. Con l'avvento dei modelli linguistici di grandi dimensioni (LLM), sorge un'importante domanda di ricerca: quanto efficacemente i LLM generativi possono estrarre input che inducono errori dai report di bug? In questo articolo, proponiamo LLPut, una tecnica per valutare empiricamente le prestazioni di tre LLM generativi open-source — LLaMA, Qwen e Qwen-Coder — nell'estrazione di input rilevanti dai report di bug. Condurremo una valutazione sperimentale su un dataset di 206 report di bug per valutare l'accuratezza e l'efficacia di questi modelli. I nostri risultati forniscono approfondimenti sulle capacità e i limiti dei LLM generativi nella diagnosi automatizzata dei bug.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing
software bugs. Bug reports typically contain these inputs, which developers
extract to facilitate debugging. Since bug reports are written in natural
language, prior research has leveraged various Natural Language Processing
(NLP) techniques for automated input extraction. With the advent of Large
Language Models (LLMs), an important research question arises: how effectively
can generative LLMs extract failure-inducing inputs from bug reports? In this
paper, we propose LLPut, a technique to empirically evaluate the performance of
three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in
extracting relevant inputs from bug reports. We conduct an experimental
evaluation on a dataset of 206 bug reports to assess the accuracy and
effectiveness of these models. Our findings provide insights into the
capabilities and limitations of generative LLMs in automated bug diagnosis.Summary
AI-Generated Summary