PaperBench: Valutazione della Capacità dell'IA di Replicare la Ricerca sull'IA
PaperBench: Evaluating AI's Ability to Replicate AI Research
April 2, 2025
Autori: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
cs.AI
Abstract
Introduciamo PaperBench, un benchmark che valuta la capacità degli agenti AI di replicare ricerche all'avanguardia nel campo dell'intelligenza artificiale. Gli agenti devono replicare 20 paper selezionati come Spotlight e Oral per ICML 2024 partendo da zero, comprendendo i contributi dei paper, sviluppando una base di codice ed eseguendo con successo gli esperimenti. Per una valutazione oggettiva, abbiamo sviluppato rubriche che scompongono gerarchicamente ogni task di replicazione in sotto-task più piccoli con criteri di valutazione chiari. In totale, PaperBench contiene 8.316 task valutabili individualmente. Le rubriche sono state co-sviluppate con gli autori di ciascun paper ICML per garantire accuratezza e realismo. Per abilitare una valutazione scalabile, abbiamo anche sviluppato un giudice basato su LLM per valutare automaticamente i tentativi di replicazione rispetto alle rubriche, e abbiamo valutato le prestazioni del giudice creando un benchmark separato per i giudici. Abbiamo valutato diversi modelli di frontiera su PaperBench, riscontrando che l'agente con le migliori prestazioni testato, Claude 3.5 Sonnet (New) con scaffolding open-source, raggiunge un punteggio medio di replicazione del 21,0\%. Infine, abbiamo reclutato dottorandi di alto livello in machine learning per tentare un sottoinsieme di PaperBench, scoprendo che i modelli non superano ancora la baseline umana. Abbiamo https://github.com/openai/preparedness{reso open-source il nostro codice} per facilitare future ricerche sulla comprensione delle capacità ingegneristiche degli agenti AI.
English
We introduce PaperBench, a benchmark evaluating the ability of AI agents to
replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024
Spotlight and Oral papers from scratch, including understanding paper
contributions, developing a codebase, and successfully executing experiments.
For objective evaluation, we develop rubrics that hierarchically decompose each
replication task into smaller sub-tasks with clear grading criteria. In total,
PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed
with the author(s) of each ICML paper for accuracy and realism. To enable
scalable evaluation, we also develop an LLM-based judge to automatically grade
replication attempts against rubrics, and assess our judge's performance by
creating a separate benchmark for judges. We evaluate several frontier models
on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet
(New) with open-source scaffolding, achieves an average replication score of
21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench,
finding that models do not yet outperform the human baseline. We
https://github.com/openai/preparedness{open-source our code} to
facilitate future research in understanding the AI engineering capabilities of
AI agents.Summary
AI-Generated Summary