Paper2Code: Automatisierung der Code-Generierung aus wissenschaftlichen Artikeln im Bereich des maschinellen Lernens

Zusammenfassung

Trotz des rasanten Wachstums der Forschung im Bereich des maschinellen Lernens sind entsprechende Code-Implementierungen oft nicht verfügbar, was es für Forscher langsam und arbeitsintensiv macht, Ergebnisse zu reproduzieren und auf früheren Arbeiten aufzubauen. In der Zwischenzeit zeichnen sich aktuelle Large Language Models (LLMs) durch ihre Fähigkeit aus, wissenschaftliche Dokumente zu verstehen und hochwertigen Code zu generieren. Inspiriert davon stellen wir PaperCoder vor, ein Multi-Agenten-LLM-Framework, das maschinelle Lernpapiere in funktionale Code-Repositories umwandelt. PaperCoder arbeitet in drei Phasen: Planung, in der es einen hochrangigen Fahrplan erstellt, die Systemarchitektur mit Diagrammen entwirft, Dateiabhängigkeiten identifiziert und Konfigurationsdateien generiert; Analyse, die sich auf die Interpretation implementierungsspezifischer Details konzentriert; und Generierung, in der modularer, abhängigkeitsbewusster Code erzeugt wird. Darüber hinaus wird jede Phase durch eine Reihe spezialisierter Agenten instanziiert, die darauf ausgelegt sind, effektiv über die Pipeline hinweg zusammenzuarbeiten. Wir bewerten PaperCoder dann anhand der Generierung von Code-Implementierungen aus maschinellen Lernpapieren basierend auf sowohl modellbasierten als auch menschlichen Bewertungen, insbesondere von den ursprünglichen Autoren der Papiere, wobei von Autoren veröffentlichte Repositories als Grundwahrheit dienen, sofern verfügbar. Unsere Ergebnisse demonstrieren die Effektivität von PaperCoder bei der Erstellung hochwertiger, treuer Implementierungen. Darüber hinaus zeigt es durchgehend Stärken im kürzlich veröffentlichten PaperBench-Benchmark und übertrifft starke Baselines mit erheblichen Abständen.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Automatisierung der Code-Generierung aus wissenschaftlichen Artikeln im Bereich des maschinellen Lernens

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Zusammenfassung

Summary

Support

Support