EpiCoder:コード生成における多様性と複雑さの包括
EpiCoder: Encompassing Diversity and Complexity in Code Generation
January 8, 2025
著者: Yaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li
cs.AI
要旨
効果的な指示調整は、コードLLMの最適化に不可欠であり、モデルの振る舞いをユーザーの期待に合わせ、実世界のアプリケーションにおけるモデルのパフォーマンスを向上させるために重要です。ただし、ほとんどの既存の手法はコードスニペットに焦点を当てており、特定の機能や堅牢な構造に限定されているため、合成データの複雑さと多様性が制限されています。これらの制限に対処するために、私たちは、抽象構文木(AST)に着想を得た新しい特徴ツリーベースの合成フレームワークを導入しています。ASTがコードの構文構造を捉えるのに対し、当社のフレームワークはコード要素間の意味関係をモデル化し、より微妙で多様なデータの生成を可能にします。特徴ツリーは生データから構築され、抽出された特徴の量と多様性を増やすために反復的に洗練されます。このプロセスにより、コード内のより複雑なパターンや関係性を特定することが可能となります。制御された深さと幅でサブツリーをサンプリングすることにより、当社のフレームワークは生成されるコードの複雑さを正確に調整し、単純な関数レベルの操作から複雑な複数ファイルシナリオまで幅広いタスクをサポートします。広く使用されているベースモデルを微調整してEpiCoderシリーズを作成し、複数のベンチマークで機能レベルとファイルレベルの両方で最先端のパフォーマンスを達成しました。特筆すべきは、経験的証拠が、当社の手法が高度に複雑なリポジトリレベルのコードデータを合成する上で重要な潜在能力を示していることを示しています。さらなる分析により、ソフトウェアエンジニアリングの原則とLLMを判断基準とする方法を通じて、この手法のデータの複雑さと多様性を厳密に評価することで、この手法の利点が明らかになります。
English
Effective instruction tuning is indispensable for optimizing code LLMs,
aligning model behavior with user expectations and enhancing model performance
in real-world applications. However, most existing methods focus on code
snippets, which are limited to specific functionalities and rigid structures,
restricting the complexity and diversity of the synthesized data. To address
these limitations, we introduce a novel feature tree-based synthesis framework
inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic
structure of code, our framework models semantic relationships between code
elements, enabling the generation of more nuanced and diverse data. The feature
tree is constructed from raw data and refined iteratively to increase the
quantity and diversity of the extracted features. This process enables the
identification of more complex patterns and relationships within the code. By
sampling subtrees with controlled depth and breadth, our framework allows
precise adjustments to the complexity of the generated code, supporting a wide
range of tasks from simple function-level operations to intricate multi-file
scenarios. We fine-tuned widely-used base models to create the EpiCoder series,
achieving state-of-the-art performance at both the function and file levels
across multiple benchmarks. Notably, empirical evidence indicates that our
approach shows significant potential in synthesizing highly complex
repository-level code data. Further analysis elucidates the merits of this
approach by rigorously assessing data complexity and diversity through software
engineering principles and LLM-as-a-judge method.Summary
AI-Generated Summary