Les modèles peuvent-ils nous aider à créer de meilleurs modèles ? Évaluation des LLM en tant que Data Scientists

Résumé

Nous présentons un banc d'essai pour les grands modèles de langage conçus pour s'attaquer à l'une des tâches les plus intensives en connaissances en science des données : l'écriture de code d'ingénierie des fonctionnalités, qui nécessite une connaissance du domaine en plus d'une compréhension approfondie du problème sous-jacent et de la structure des données. Le modèle reçoit une description de l'ensemble de données dans une invite et est invité à générer du code le transformant. Le score d'évaluation est dérivé de l'amélioration obtenue par un modèle XGBoost ajusté sur l'ensemble de données modifié par rapport aux données originales. Par une évaluation approfondie des modèles de pointe et une comparaison avec des bancs d'essai bien établis, nous démontrons que le FeatEng de notre proposition peut évaluer de manière économique et efficace les capacités étendues des LLM, contrairement aux méthodes existantes.

English

We present a benchmark for large language models designed to tackle one of the most knowledge-intensive tasks in data science: writing feature engineering code, which requires domain knowledge in addition to a deep understanding of the underlying problem and data structure. The model is provided with a dataset description in a prompt and asked to generate code transforming it. The evaluation score is derived from the improvement achieved by an XGBoost model fit on the modified dataset compared to the original data. By an extensive evaluation of state-of-the-art models and comparison to well-established benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and efficiently assess the broad capabilities of LLMs, in contrast to the existing methods.

Les modèles peuvent-ils nous aider à créer de meilleurs modèles ? Évaluation des LLM en tant que Data Scientists

Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists

Résumé

Summary

Support