Les modèles peuvent-ils nous aider à créer de meilleurs modèles ? Évaluation des LLM en tant que Data Scientists
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
October 30, 2024
Auteurs: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
cs.AI
Résumé
Nous présentons un banc d'essai pour les grands modèles de langage conçus pour s'attaquer à l'une des tâches les plus intensives en connaissances en science des données : l'écriture de code d'ingénierie des fonctionnalités, qui nécessite une connaissance du domaine en plus d'une compréhension approfondie du problème sous-jacent et de la structure des données. Le modèle reçoit une description de l'ensemble de données dans une invite et est invité à générer du code le transformant. Le score d'évaluation est dérivé de l'amélioration obtenue par un modèle XGBoost ajusté sur l'ensemble de données modifié par rapport aux données originales. Par une évaluation approfondie des modèles de pointe et une comparaison avec des bancs d'essai bien établis, nous démontrons que le FeatEng de notre proposition peut évaluer de manière économique et efficace les capacités étendues des LLM, contrairement aux méthodes existantes.
English
We present a benchmark for large language models designed to tackle one of
the most knowledge-intensive tasks in data science: writing feature engineering
code, which requires domain knowledge in addition to a deep understanding of
the underlying problem and data structure. The model is provided with a dataset
description in a prompt and asked to generate code transforming it. The
evaluation score is derived from the improvement achieved by an XGBoost model
fit on the modified dataset compared to the original data. By an extensive
evaluation of state-of-the-art models and comparison to well-established
benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and
efficiently assess the broad capabilities of LLMs, in contrast to the existing
methods.Summary
AI-Generated Summary