IterPref : Apprentissage des préférences focales pour la génération de code via un débogage itératif

Résumé

L'apprentissage des préférences améliore les modèles de langage pour le code (Code LLMs) au-delà du réglage fin supervisé en exploitant des comparaisons relatives de qualité. Les méthodes existantes construisent des paires de préférences à partir de candidats basés sur la réussite des cas de test, traitant l'échantillon avec le taux de réussite le plus élevé comme positif et celui avec le taux le plus bas comme négatif. Cependant, cette approche ne localise pas les erreurs spécifiques dans le code, ce qui empêche le modèle d'apprendre des modèles de correction d'erreurs plus informatifs, car l'alignement du code défaillant dans son ensemble manque de la granularité nécessaire pour capturer des relations significatives de résolution d'erreurs. Pour résoudre ces problèmes, nous proposons IterPref, un nouveau cadre d'alignement des préférences qui imite le débogage itératif humain pour affiner les Code LLMs. IterPref localise explicitement les régions d'erreur et aligne les tokens correspondants via un algorithme DPO adapté. Pour générer des paires informatives, nous introduisons le jeu de données CodeFlow, où les échantillons sont raffinés de manière itérative jusqu'à ce qu'ils passent les tests, avec des modifications capturant les corrections d'erreurs. Des expériences approfondies montrent qu'une suite diversifiée de Code LLMs équipés d'IterPref obtient des gains de performance significatifs en génération de code et s'améliore sur des tâches complexes comme BigCodeBench. Une analyse approfondie révèle qu'IterPref produit moins d'erreurs. Notre code et nos données seront rendus publics.

English

Preference learning enhances Code LLMs beyond supervised fine-tuning by leveraging relative quality comparisons. Existing methods construct preference pairs from candidates based on test case success, treating the higher pass rate sample as positive and the lower as negative. However, this approach does not pinpoint specific errors in the code, which prevents the model from learning more informative error correction patterns, as aligning failing code as a whole lacks the granularity needed to capture meaningful error-resolution relationships. To address these issues, we propose IterPref, a new preference alignment framework that mimics human iterative debugging to refine Code LLMs. IterPref explicitly locates error regions and aligns the corresponding tokens via a tailored DPO algorithm. To generate informative pairs, we introduce the CodeFlow dataset, where samples are iteratively refined until passing tests, with modifications capturing error corrections. Extensive experiments show that a diverse suite of Code LLMs equipped with IterPref achieves significant performance gains in code generation and improves on challenging tasks like BigCodeBench. In-depth analysis reveals that IterPref yields fewer errors. Our code and data will be made publicaly available.

IterPref : Apprentissage des préférences focales pour la génération de code via un débogage itératif

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

Résumé

Summary

Support

Support