ChatPaper.aiChatPaper

LLPut: Untersuchung von Large Language Models zur Eingabegenerierung basierend auf Fehlerberichten

LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

March 26, 2025
Autoren: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI

Zusammenfassung

Fehlerauslösende Eingaben spielen eine entscheidende Rolle bei der Diagnose und Analyse von Softwarefehlern. Fehlerberichte enthalten typischerweise diese Eingaben, die Entwickler extrahieren, um das Debugging zu erleichtern. Da Fehlerberichte in natürlicher Sprache verfasst sind, haben frühere Forschungen verschiedene Techniken der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) für die automatisierte Extraktion von Eingaben genutzt. Mit dem Aufkommen von großen Sprachmodellen (Large Language Models, LLMs) stellt sich eine wichtige Forschungsfrage: Wie effektiv können generative LLMs fehlerauslösende Eingaben aus Fehlerberichten extrahieren? In diesem Artikel stellen wir LLPut vor, eine Technik zur empirischen Bewertung der Leistung von drei Open-Source-generativen LLMs – LLaMA, Qwen und Qwen-Coder – bei der Extraktion relevanter Eingaben aus Fehlerberichten. Wir führen eine experimentelle Auswertung auf einem Datensatz von 206 Fehlerberichten durch, um die Genauigkeit und Effektivität dieser Modelle zu bewerten. Unsere Ergebnisse geben Einblicke in die Fähigkeiten und Grenzen generativer LLMs bei der automatisierten Fehlerdiagnose.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.

Summary

AI-Generated Summary

PDF42March 28, 2025