ChatPaper.aiChatPaper

CORE-Bench: 계산 재현성 에이전트 벤치마크를 통해 발표된 연구의 신뢰성 증진

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

September 17, 2024
저자: Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan
cs.AI

초록

AI 에이전트는 과학 연구를 수행하는 것을 포함하여 다양한 중요한 작업에서 사용자를 지원할 수 있는 잠재력을 가지고 있습니다. 유용한 에이전트의 개발을 촉진하기 위해, 우리는 도전적이지만 무엇보다도 실제로 중요한 현실 세계 작업과 직접적으로 대응하는 벤치마크가 필요합니다. 본 논문은 과학 연구의 중요하고 놀랍도록 도전적인 측면 중 하나인 계산 재현성을 다루는 AI 에이전트의 정확성을 측정하기 위해 설계된 이러한 벤치마크를 소개합니다. 이 작업은 과학적 과정에 기본적인 작업으로, 제공된 코드와 데이터를 사용하여 연구 결과를 재현하는 것을 포함합니다. 우리는 CORE-Bench (Computational Reproducibility Agent Benchmark)라는 벤치마크를 소개합니다. 이 벤치마크는 컴퓨터 과학, 사회 과학 및 의학 분야의 90편의 과학 논문을 기반으로 270가지 작업으로 구성되어 있습니다. CORE-Bench의 작업은 세 가지 난이도 수준으로 구성되어 있으며 언어만, 시각-언어 작업 둘 다를 포함합니다. 우리는 에이전트의 정확성을 빠르고 병렬화할 수 있는 평가 시스템을 제공하여, 순차적 구현과 비교하여 각 실행에 대한 평가 시간을 몇 일 동안 단축할 수 있습니다. 우리는 두 가지 베이스라인 에이전트를 평가했습니다: 일반 목적의 AutoGPT와 CORE-Agent라는 작업 특화 에이전트. 우리는 두 가지 기본 언어 모델인 GPT-4o와 GPT-4o-mini를 사용하여 두 가지 변형을 테스트했습니다. 최고의 에이전트는 가장 어려운 작업에서 21%의 정확도를 달성했으며, 루틴 과학 작업을 자동화하는 데 개선할 여지가 매우 크다는 것을 보여주었습니다. 기존 작업을 재현할 수 있는 에이전트를 보유하는 것은 새로운 연구를 수행하고 다른 연구 에이전트의 성능을 확인하고 향상시킬 수 있는 에이전트를 구축하기 위한 필수적인 단계입니다. 우리는 CORE-Bench가 재현성 상태를 개선하고 미래 연구 에이전트의 발전을 촉진할 수 있기를 희망합니다.
English
AI agents have the potential to aid users on a variety of consequential tasks, including conducting scientific research. To spur the development of useful agents, we need benchmarks that are challenging, but more crucially, directly correspond to real-world tasks of interest. This paper introduces such a benchmark, designed to measure the accuracy of AI agents in tackling a crucial yet surprisingly challenging aspect of scientific research: computational reproducibility. This task, fundamental to the scientific process, involves reproducing the results of a study using the provided code and data. We introduce CORE-Bench (Computational Reproducibility Agent Benchmark), a benchmark consisting of 270 tasks based on 90 scientific papers across three disciplines (computer science, social science, and medicine). Tasks in CORE-Bench consist of three difficulty levels and include both language-only and vision-language tasks. We provide an evaluation system to measure the accuracy of agents in a fast and parallelizable way, saving days of evaluation time for each run compared to a sequential implementation. We evaluated two baseline agents: the general-purpose AutoGPT and a task-specific agent called CORE-Agent. We tested both variants using two underlying language models: GPT-4o and GPT-4o-mini. The best agent achieved an accuracy of 21% on the hardest task, showing the vast scope for improvement in automating routine scientific tasks. Having agents that can reproduce existing work is a necessary step towards building agents that can conduct novel research and could verify and improve the performance of other research agents. We hope that CORE-Bench can improve the state of reproducibility and spur the development of future research agents.

Summary

AI-Generated Summary

PDF22November 16, 2024