EpiCoder: Abrangendo Diversidade e Complexidade na Geração de Código

EpiCoder: Encompassing Diversity and Complexity in Code Generation

January 8, 2025
Autores: Yaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li
cs.AI

Resumo

A afinação eficaz da instrução é indispensável para otimizar os modelos de código LLM, alinhar o comportamento do modelo com as expectativas do usuário e aprimorar o desempenho do modelo em aplicações do mundo real. No entanto, a maioria dos métodos existentes concentra-se em trechos de código, que são limitados a funcionalidades específicas e estruturas rígidas, restringindo a complexidade e diversidade dos dados sintetizados. Para lidar com essas limitações, introduzimos um novo framework de síntese baseado em árvores de características, inspirado nas Árvores de Sintaxe Abstrata (AST). Ao contrário do AST, que captura a estrutura sintática do código, nosso framework modela as relações semânticas entre os elementos do código, possibilitando a geração de dados mais sutis e diversos. A árvore de características é construída a partir de dados brutos e refinada de forma iterativa para aumentar a quantidade e diversidade das características extraídas. Esse processo permite a identificação de padrões e relações mais complexas dentro do código. Ao amostrar subárvores com profundidade e amplitude controladas, nosso framework permite ajustes precisos na complexidade do código gerado, suportando uma ampla gama de tarefas, desde operações simples em nível de função até cenários intricados com vários arquivos. Ajustamos modelos base amplamente utilizados para criar a série EpiCoder, alcançando desempenho de ponta tanto nos níveis de função quanto de arquivo em vários benchmarks. Notavelmente, evidências empíricas indicam que nossa abordagem mostra um potencial significativo na síntese de dados de código de repositório altamente complexos. Análises adicionais elucidam os méritos dessa abordagem, avaliando rigorosamente a complexidade e diversidade dos dados por meio de princípios de engenharia de software e do método LLM-como-juiz.
English
Effective instruction tuning is indispensable for optimizing code LLMs, aligning model behavior with user expectations and enhancing model performance in real-world applications. However, most existing methods focus on code snippets, which are limited to specific functionalities and rigid structures, restricting the complexity and diversity of the synthesized data. To address these limitations, we introduce a novel feature tree-based synthesis framework inspired by Abstract Syntax Trees (AST). Unlike AST, which captures syntactic structure of code, our framework models semantic relationships between code elements, enabling the generation of more nuanced and diverse data. The feature tree is constructed from raw data and refined iteratively to increase the quantity and diversity of the extracted features. This process enables the identification of more complex patterns and relationships within the code. By sampling subtrees with controlled depth and breadth, our framework allows precise adjustments to the complexity of the generated code, supporting a wide range of tasks from simple function-level operations to intricate multi-file scenarios. We fine-tuned widely-used base models to create the EpiCoder series, achieving state-of-the-art performance at both the function and file levels across multiple benchmarks. Notably, empirical evidence indicates that our approach shows significant potential in synthesizing highly complex repository-level code data. Further analysis elucidates the merits of this approach by rigorously assessing data complexity and diversity through software engineering principles and LLM-as-a-judge method.

Summary

AI-Generated Summary

PDF92January 9, 2025