LeetCodeDataset: Een temporele dataset voor robuuste evaluatie en efficiënte training van Code LLM's
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
April 20, 2025
Auteurs: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI
Samenvatting
We introduceren LeetCodeDataset, een hoogwaardige benchmark voor het evalueren en trainen van code-generatiemodellen, waarmee twee belangrijke uitdagingen in LLM-onderzoek worden aangepakt: het gebrek aan coderingsbenchmarks die gericht zijn op redenering en zelfstandige trainingsomgevingen. Door LeetCode Python-problemen te cureren met rijke metadata, brede dekking, 100+ testgevallen per probleem en temporele splitsingen (voor/na juli 2024), maakt onze dataset contaminatievrije evaluatie en efficiënte supervised fine-tuning (SFT) mogelijk. Experimenten tonen aan dat redeneermodellen aanzienlijk beter presteren dan niet-redeneerende tegenhangers, terwijl SFT met slechts 2,6K modelgegenereerde oplossingen prestaties bereikt die vergelijkbaar zijn met tegenhangers van 110K voorbeelden. De dataset en het evaluatieraamwerk zijn beschikbaar op Hugging Face en Github.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and
training code-generation models, addressing two key challenges in LLM research:
the lack of reasoning-focused coding benchmarks and self-contained training
testbeds. By curating LeetCode Python problems with rich metadata, broad
coverage, 100+ test cases per problem, and temporal splits (pre/post July
2024), our dataset enables contamination-free evaluation and efficient
supervised fine-tuning (SFT). Experiments show reasoning models significantly
outperform non-reasoning counterparts, while SFT with only 2.6K model-generated
solutions achieves performance comparable to 110K-sample counterparts. The
dataset and evaluation framework are available on Hugging Face and Github.Summary
AI-Generated Summary