Paper2Code : Automatisation de la génération de code à partir d'articles scientifiques en apprentissage automatique

Résumé

Malgré la croissance rapide de la recherche en apprentissage automatique, les implémentations de code correspondantes sont souvent indisponibles, rendant la reproduction des résultats et la construction sur des travaux antérieurs lentes et laborieuses pour les chercheurs. Parallèlement, les modèles de langage de grande taille (LLMs) récents excellent dans la compréhension des documents scientifiques et la génération de code de haute qualité. Inspirés par cela, nous introduisons PaperCoder, un framework multi-agent basé sur des LLMs qui transforme les articles d'apprentissage automatique en dépôts de code fonctionnels. PaperCoder opère en trois étapes : la planification, où il construit une feuille de route de haut niveau, conçoit l'architecture du système avec des diagrammes, identifie les dépendances de fichiers et génère des fichiers de configuration ; l'analyse, qui se concentre sur l'interprétation des détails spécifiques à l'implémentation ; et la génération, où un code modulaire et conscient des dépendances est produit. De plus, chaque phase est instanciée par un ensemble d'agents spécialisés conçus pour collaborer efficacement tout au long du pipeline. Nous évaluons ensuite PaperCoder sur la génération d'implémentations de code à partir d'articles d'apprentissage automatique en nous basant sur des évaluations à la fois basées sur des modèles et humaines, spécifiquement celles des auteurs originaux des articles, avec les dépôts publiés par les auteurs comme vérité de référence lorsqu'ils sont disponibles. Nos résultats démontrent l'efficacité de PaperCoder à créer des implémentations de haute qualité et fidèles. De plus, il montre systématiquement des forces dans le benchmark récemment publié PaperBench, surpassant les bases de référence solides par des marges substantielles.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code : Automatisation de la génération de code à partir d'articles scientifiques en apprentissage automatique

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Résumé

Summary

Support

Support