CodeCriticBench: всесторонний бенчмарк для оценки кода для крупных языковых моделей
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Авторы: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Аннотация
Критическая способность крупных языковых моделей (LLM) является важной для способностей рассуждения, которые могут предоставить необходимые рекомендации (например, подробный анализ и конструктивную обратную связь). Поэтому вопрос оценки критической способности LLM привлекает большое внимание, и было предложено несколько критических бенчмарков. Однако существующие критические бенчмарки обычно имеют следующие ограничения: (1) сосредоточены на разнообразных задачах рассуждения в общих областях и недостаточно оценивают задачи с кодом (например, охватывают только задачу генерации кода), где сложность запросов относительно невелика (например, запросы кода CriticBench взяты из Humaneval и MBPP). (2) Отсутствие всесторонней оценки с разных точек зрения. Для преодоления этих ограничений мы представляем всесторонний кодовый критический бенчмарк для LLM под названием CodeCriticBench. Конкретно, наш CodeCriticBench включает две основные задачи с кодом (т.е. генерацию кода и вопросы-ответы по коду) с разной сложностью. Кроме того, протоколы оценки включают базовую оценку критики и продвинутую оценку критики для различных характеристик, где для продвинутых настроек хорошо разработаны детализированные списки оценки. Наконец, мы проводим обширные экспериментальные результаты существующих LLM, которые показывают эффективность CodeCriticBench.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary