HackerRank-ASTRA: 대규모 언어 모델의 정확성과 일관성 평가 다중 파일 프로젝트 문제에서의 교차 도메인 평가
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems
January 31, 2025
저자: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)의 실제 적용 가능성을 평가하는 것은 소프트웨어 개발 작업에서의 개발 및 사용에 대한 유용한 통찰을 제공합니다. 기존의 벤치마크는 종종 독립적인 코딩 문제나 특정 라이브러리에 초점을 맞추며, 다중 파일, 프로젝트 기반 시나리오를 간과하고 일관성에 대한 엄격한 평가를 미흡하게 합니다. HackerRank-ASTRA 벤치마크는 실제 시나리오를 반영하는 프로젝트 기반 코딩 문제를 소개합니다. 이는 32회의 실행(k = 32)과 중앙값 표준 편차를 통해 모델의 일관성을 평가하며, 세분화 수준 분석을 통해 하위 기술 능력을 평가합니다. 65개 문제에 대한 초기 평가 결과, 상위 세 모델인 o1, o1-preview, Claude-3.5-Sonnet-1022가 각각 75%의 평균 점수를 달성하며, 성능상 통계적으로 유의미한 차이가 없었습니다. 특히, Claude-3.5-Sonnet-1022는 문제 간에서 가장 높은 일관성을 보여주었으며(변동성이 낮음, SD = 0.0497), 다른 모델과 비교하여 통계적으로 유의미했으며, 실제 소프트웨어 개발 작업에 대한 신뢰성을 강조했습니다.
English
Evaluating the real-world applicability of large language models (LLMs)
provides valuable insights for their development and use in software
development tasks. Existing benchmarks often focus on standalone coding
problems or specific libraries, overlooking multi-file, project-based scenarios
and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA
Benchmark introduces project-based coding problems that mirror real-world
scenarios. It evaluates model consistency through 32 runs (k = 32) and median
standard deviation while incorporating taxonomy-level analysis to assess
sub-skill capabilities. Initial evaluations on 65 problems show that the top
three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved
comparable average scores of 75%, with no statistically significant differences
in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest
consistency across problems, with low variability (SD = 0.0497), which was
statistically significant compared to other models, highlighting its
reliability for real-world software development tasks.Summary
AI-Generated Summary