LeetCodeDataset: Een temporele dataset voor robuuste evaluatie en efficiënte training van Code LLM's

Samenvatting

We introduceren LeetCodeDataset, een hoogwaardige benchmark voor het evalueren en trainen van code-generatiemodellen, waarmee twee belangrijke uitdagingen in LLM-onderzoek worden aangepakt: het gebrek aan coderingsbenchmarks die gericht zijn op redenering en zelfstandige trainingsomgevingen. Door LeetCode Python-problemen te cureren met rijke metadata, brede dekking, 100+ testgevallen per probleem en temporele splitsingen (voor/na juli 2024), maakt onze dataset contaminatievrije evaluatie en efficiënte supervised fine-tuning (SFT) mogelijk. Experimenten tonen aan dat redeneermodellen aanzienlijk beter presteren dan niet-redeneerende tegenhangers, terwijl SFT met slechts 2,6K modelgegenereerde oplossingen prestaties bereikt die vergelijkbaar zijn met tegenhangers van 110K voorbeelden. De dataset en het evaluatieraamwerk zijn beschikbaar op Hugging Face en Github.

English

We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

LeetCodeDataset: Een temporele dataset voor robuuste evaluatie en efficiënte training van Code LLM's

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Samenvatting

Summary

Support

Support