Paper2Code : Automatisation de la génération de code à partir d'articles scientifiques en apprentissage automatique
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
April 24, 2025
Auteurs: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI
Résumé
Malgré la croissance rapide de la recherche en apprentissage automatique, les implémentations de code correspondantes sont souvent indisponibles, rendant la reproduction des résultats et la construction sur des travaux antérieurs lentes et laborieuses pour les chercheurs. Parallèlement, les modèles de langage de grande taille (LLMs) récents excellent dans la compréhension des documents scientifiques et la génération de code de haute qualité. Inspirés par cela, nous introduisons PaperCoder, un framework multi-agent basé sur des LLMs qui transforme les articles d'apprentissage automatique en dépôts de code fonctionnels. PaperCoder opère en trois étapes : la planification, où il construit une feuille de route de haut niveau, conçoit l'architecture du système avec des diagrammes, identifie les dépendances de fichiers et génère des fichiers de configuration ; l'analyse, qui se concentre sur l'interprétation des détails spécifiques à l'implémentation ; et la génération, où un code modulaire et conscient des dépendances est produit. De plus, chaque phase est instanciée par un ensemble d'agents spécialisés conçus pour collaborer efficacement tout au long du pipeline. Nous évaluons ensuite PaperCoder sur la génération d'implémentations de code à partir d'articles d'apprentissage automatique en nous basant sur des évaluations à la fois basées sur des modèles et humaines, spécifiquement celles des auteurs originaux des articles, avec les dépôts publiés par les auteurs comme vérité de référence lorsqu'ils sont disponibles. Nos résultats démontrent l'efficacité de PaperCoder à créer des implémentations de haute qualité et fidèles. De plus, il montre systématiquement des forces dans le benchmark récemment publié PaperBench, surpassant les bases de référence solides par des marges substantielles.
English
Despite the rapid growth of machine learning research, corresponding code
implementations are often unavailable, making it slow and labor-intensive for
researchers to reproduce results and build upon prior work. In the meantime,
recent Large Language Models (LLMs) excel at understanding scientific documents
and generating high-quality code. Inspired by this, we introduce PaperCoder, a
multi-agent LLM framework that transforms machine learning papers into
functional code repositories. PaperCoder operates in three stages: planning,
where it constructs a high-level roadmap, designs the system architecture with
diagrams, identifies file dependencies, and generates configuration files;
analysis, which focuses on interpreting implementation-specific details; and
generation, where modular, dependency-aware code is produced. Moreover, each
phase is instantiated through a set of specialized agents designed to
collaborate effectively across the pipeline. We then evaluate PaperCoder on
generating code implementations from machine learning papers based on both
model-based and human evaluations, specifically from the original paper
authors, with author-released repositories as ground truth if available. Our
results demonstrate the effectiveness of PaperCoder in creating high-quality,
faithful implementations. Furthermore, it consistently shows strengths in the
recently released PaperBench benchmark, surpassing strong baselines by
substantial margins.Summary
AI-Generated Summary