ChatPaper.aiChatPaper

CODESIM: 시뮬레이션 주도 계획 및 디버깅을 통한 다중 에이전트 코드 생성 및 문제 해결

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

February 8, 2025
저자: Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI

초록

대규모 언어 모델(Large Language Models, LLMs)은 코드 생성 및 문제 해결에서 상당한 발전을 이루었습니다. 현재의 접근 방식은 다양한 방법으로 생성된 초기 프로그램을 개선하기 위해 컴파일러나 다른 도구 기반의 런타임 피드백을 활용하는 외부 도구 기반의 반복적 디버거를 사용합니다. 그러나 이러한 접근 방식의 효과는 초기 코드 생성의 품질에 매우 의존하며, 이는 여전히 열린 과제입니다. 본 논문에서는 프로그램 합성-계획, 코딩, 디버깅 단계를 인간과 유사한 지각 접근을 통해 포괄적으로 다루는 새로운 다중 에이전트 코드 생성 프레임워크인 CodeSim을 소개합니다. 인간이 알고리즘에 대한 이해를 시각적 시뮬레이션을 통해 검증하는 것처럼, CodeSim은 입력/출력의 단계별 시뮬레이션을 통한 계획 검증 및 내부 디버깅의 독특한 기능을 갖추고 있습니다. 7가지 어려운 경쟁적 문제 해결 및 프로그램 합성 벤치마크를 통해 수행된 방대한 실험은 CodeSim의 놀라운 코드 생성 능력을 입증합니다. 우리의 프레임워크는 새로운 최첨단(HumanEval 95.1%, MBPP 90.7%, APPS 22%, CodeContests 29.1%) 결과를 달성했습니다. 더 나아가, 우리의 방법은 외부 디버거와 연계되었을 때 더 큰 향상 가능성을 보여줍니다. 이 분야에서의 추가 연구 및 개발을 촉진하기 위해 우리의 프레임워크를 다음 링크(https://kagnlp.github.io/codesim.github.io/)에서 오픈소스로 제공하였습니다.
English
Large Language Models (LLMs) have made significant strides in code generation and problem solving. Current approaches employ external tool-based iterative debuggers that use compiler or other tool-based runtime feedback to refine coarse programs generated by various methods. However, the effectiveness of these approaches heavily relies on the quality of the initial code generation, which remains an open challenge. In this paper, we introduce CodeSim, a novel multi-agent code generation framework that comprehensively addresses the stages of program synthesis-planning, coding, and debugging-through a human-like perception approach. As human verifies their understanding of any algorithms through visual simulation, CodeSim uniquely features a method of plan verification and internal debugging through the step-by-step simulation of input/output. Extensive experiments across seven challenging competitive problem-solving and program synthesis benchmarks demonstrate CodeSim's remarkable code generation capabilities. Our framework achieves new state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and CodeContests 29.1%). Furthermore, our method shows potential for even greater enhancement when cascaded with external debuggers. To facilitate further research and development in this area, we have open-sourced our framework in this link (https://kagnlp.github.io/codesim.github.io/).

Summary

AI-Generated Summary

PDF223February 11, 2025