Kunnen modellen ons helpen betere modellen te creëren? Het evalueren van LLM's als datawetenschappers.
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
October 30, 2024
Auteurs: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
cs.AI
Samenvatting
We presenteren een benchmark voor grote taalmodellen die zijn ontworpen om een van de meest kennisintensieve taken in datascience aan te pakken: het schrijven van code voor kenmerktechniek, wat domeinkennis vereist naast een diepgaand begrip van het onderliggende probleem en de gegevensstructuur. Het model krijgt een datasetbeschrijving in een prompt en wordt gevraagd code te genereren om deze te transformeren. De evaluatiescore is afgeleid van de verbetering die een XGBoost-model behaalt op de aangepaste dataset in vergelijking met de oorspronkelijke gegevens. Door een uitgebreide evaluatie van state-of-the-art modellen en vergelijking met gevestigde benchmarks, tonen we aan dat de FeatEng van ons voorstel op een goedkope en efficiënte manier de brede mogelijkheden van LLMs kan beoordelen, in tegenstelling tot de bestaande methoden.
English
We present a benchmark for large language models designed to tackle one of
the most knowledge-intensive tasks in data science: writing feature engineering
code, which requires domain knowledge in addition to a deep understanding of
the underlying problem and data structure. The model is provided with a dataset
description in a prompt and asked to generate code transforming it. The
evaluation score is derived from the improvement achieved by an XGBoost model
fit on the modified dataset compared to the original data. By an extensive
evaluation of state-of-the-art models and comparison to well-established
benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and
efficiently assess the broad capabilities of LLMs, in contrast to the existing
methods.Summary
AI-Generated Summary