LLM-FE: Automatisierte Merkmalskonstruktion für tabellarische Daten mit LLMs als evolutionäre Optimierer
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
March 18, 2025
Autoren: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI
Zusammenfassung
Die automatisierte Merkmalserstellung spielt eine entscheidende Rolle bei der Verbesserung der Vorhersageleistung von Modellen für tabellarische Lernaufgaben. Traditionelle Methoden der automatisierten Merkmalserstellung sind durch ihre Abhängigkeit von vordefinierten Transformationen innerhalb festgelegter, manuell gestalteter Suchräume eingeschränkt und vernachlässigen oft domänenspezifisches Wissen. Jüngste Fortschritte durch den Einsatz von Large Language Models (LLMs) haben die Integration von domänenspezifischem Wissen in den Prozess der Merkmalserstellung ermöglicht. Allerdings nutzen bestehende LLM-basierte Ansätze entweder direkte Prompting-Techniken oder verlassen sich ausschließlich auf Validierungswerte für die Merkmalsauswahl, ohne Erkenntnisse aus früheren Merkmalserkennungsexperimenten zu nutzen oder eine sinnvolle Verbindung zwischen Merkmalsgenerierung und datengetriebener Leistung herzustellen. Um diese Herausforderungen zu bewältigen, schlagen wir LLM-FE vor, ein neuartiges Framework, das evolutionäre Suche mit dem domänenspezifischen Wissen und den Schlussfolgerungsfähigkeiten von LLMs kombiniert, um effektive Merkmale für tabellarische Lernaufgaben automatisch zu entdecken. LLM-FE formuliert die Merkmalserstellung als ein Programmsuchproblem, bei dem LLMs iterativ neue Merkmalstransformationsprogramme vorschlagen und datengetriebenes Feedback den Suchprozess leitet. Unsere Ergebnisse zeigen, dass LLM-FE durchweg state-of-the-art Baselines übertrifft und die Leistung von Vorhersagemodellen für tabellarische Daten über verschiedene Klassifikations- und Regressionsbenchmarks hinweg signifikant verbessert.
English
Automated feature engineering plays a critical role in improving predictive
model performance for tabular learning tasks. Traditional automated feature
engineering methods are limited by their reliance on pre-defined
transformations within fixed, manually designed search spaces, often neglecting
domain knowledge. Recent advances using Large Language Models (LLMs) have
enabled the integration of domain knowledge into the feature engineering
process. However, existing LLM-based approaches use direct prompting or rely
solely on validation scores for feature selection, failing to leverage insights
from prior feature discovery experiments or establish meaningful reasoning
between feature generation and data-driven performance. To address these
challenges, we propose LLM-FE, a novel framework that combines evolutionary
search with the domain knowledge and reasoning capabilities of LLMs to
automatically discover effective features for tabular learning tasks. LLM-FE
formulates feature engineering as a program search problem, where LLMs propose
new feature transformation programs iteratively, and data-driven feedback
guides the search process. Our results demonstrate that LLM-FE consistently
outperforms state-of-the-art baselines, significantly enhancing the performance
of tabular prediction models across diverse classification and regression
benchmarks.Summary
AI-Generated Summary