Possono i modelli aiutarci a creare modelli migliori? Valutazione dei LLM come Data Scientist.
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
October 30, 2024
Autori: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
cs.AI
Abstract
Presentiamo un benchmark per modelli linguistici di grandi dimensioni progettati per affrontare uno dei compiti più intensivi di conoscenza nella scienza dei dati: scrivere codice di ingegneria delle caratteristiche, che richiede conoscenze di dominio oltre a una profonda comprensione del problema sottostante e della struttura dei dati. Il modello riceve una descrizione del dataset in un prompt e viene chiesto di generare codice per trasformarlo. Il punteggio di valutazione deriva dal miglioramento ottenuto da un modello XGBoost adattato al dataset modificato rispetto ai dati originali. Attraverso un'ampia valutazione dei modelli all'avanguardia e il confronto con benchmark consolidati, dimostriamo che il FeatEng della nostra proposta può valutare in modo economico ed efficiente le ampie capacità dei LLM, a differenza dei metodi esistenti.
English
We present a benchmark for large language models designed to tackle one of
the most knowledge-intensive tasks in data science: writing feature engineering
code, which requires domain knowledge in addition to a deep understanding of
the underlying problem and data structure. The model is provided with a dataset
description in a prompt and asked to generate code transforming it. The
evaluation score is derived from the improvement achieved by an XGBoost model
fit on the modified dataset compared to the original data. By an extensive
evaluation of state-of-the-art models and comparison to well-established
benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and
efficiently assess the broad capabilities of LLMs, in contrast to the existing
methods.Summary
AI-Generated Summary