대규모 언어 모델 안내 자체 디버깅 코드 생성
Large Language Model Guided Self-Debugging Code Generation
February 5, 2025
저자: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
cs.AI
초록
자동 코드 생성은 지능적인 컴퓨터 프로그래밍과 시스템 배포에서 중요성을 점차 얻고 있습니다. 그러나 현재의 방법들은 계산 효율성과 코드 구문 분석 및 오류 수정을 위한 견고한 메커니즘에 대한 도전에 직면하고 있습니다. 본 연구에서는 Python 코드 생성을 위한 간단하면서도 효과적인 두 에이전트 파이프라인과 효율적인 자체 디버깅 모듈을 갖춘 새로운 프레임워크인 PyCapsule을 제안합니다. PyCapsule은 정교한 프롬프트 추론, 반복적인 오류 처리, 케이스 테스트를 특징으로 하며, 높은 생성 안정성, 안전성, 정확성을 보장합니다. 경험적으로, PyCapsule은 최첨단 방법에 비해 HumanEval에서 성공률이 최대 5.7% 향상되었으며, HumanEval-ET에서 10.3%, BigCodeBench에서 24.4% 향상되었습니다. 더 많은 자체 디버깅 시도가 있을수록 표준화된 성공률이 감소하는 것을 관찰하였으며, 이는 제한적이고 소음이 있는 오류 피드백에 영향을 받을 수 있습니다. PyCapsule은 인공지능 시스템을 위한 경량이면서 효율적인 코드 생성을 발전시키는 데 더 넓은 영향을 보여줍니다.
English
Automated code generation is gaining significant importance in intelligent
computer programming and system deployment. However, current approaches often
face challenges in computational efficiency and lack robust mechanisms for code
parsing and error correction. In this work, we propose a novel framework,
PyCapsule, with a simple yet effective two-agent pipeline and efficient
self-debugging modules for Python code generation. PyCapsule features
sophisticated prompt inference, iterative error handling, and case testing,
ensuring high generation stability, safety, and correctness. Empirically,
PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3%
on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art
methods. We also observe a decrease in normalized success rate given more
self-debugging attempts, potentially affected by limited and noisy error
feedback in retention. PyCapsule demonstrates broader impacts on advancing
lightweight and efficient code generation for artificial intelligence systems.Summary
AI-Generated Summary