AutoKaggle: Un framework multi-agente per la scienza dei dati autonoma nelle competizioni
AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions
October 27, 2024
Autori: Ziming Li, Qianbo Zang, David Ma, Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge Zhang
cs.AI
Abstract
Le attività di data science che coinvolgono dati tabulari presentano sfide complesse che richiedono approcci sofisticati alla risoluzione dei problemi. Proponiamo AutoKaggle, un framework potente e centrato sull'utente che assiste i data scientist nel completamento delle pipeline dati quotidiane attraverso un sistema collaborativo multi-agente. AutoKaggle implementa un processo di sviluppo iterativo che combina esecuzione del codice, debugging e test unitari completi per garantire la correttezza del codice e la coerenza logica. Il framework offre flussi di lavoro altamente personalizzabili, consentendo agli utenti di intervenire in ogni fase, integrando così l'intelligenza automatizzata con l'esperienza umana. Il nostro toolkit universale di data science, che comprende funzioni validate per la pulizia dei dati, l'ingegneria delle caratteristiche e la modellazione, costituisce la base di questa soluzione, migliorando la produttività attraverso la razionalizzazione delle attività comuni. Abbiamo selezionato 8 competizioni Kaggle per simulare flussi di lavoro di elaborazione dati in scenari di applicazione del mondo reale. I risultati dell'evaluazione dimostrano che AutoKaggle raggiunge un tasso di sottomissione di validazione del 0.85 e un punteggio completo del 0.82 nelle tipiche pipeline di data science, dimostrando appieno la sua efficacia e praticità nella gestione di complesse attività di data science.
English
Data science tasks involving tabular data present complex challenges that
require sophisticated problem-solving approaches. We propose AutoKaggle, a
powerful and user-centric framework that assists data scientists in completing
daily data pipelines through a collaborative multi-agent system. AutoKaggle
implements an iterative development process that combines code execution,
debugging, and comprehensive unit testing to ensure code correctness and logic
consistency. The framework offers highly customizable workflows, allowing users
to intervene at each phase, thus integrating automated intelligence with human
expertise. Our universal data science toolkit, comprising validated functions
for data cleaning, feature engineering, and modeling, forms the foundation of
this solution, enhancing productivity by streamlining common tasks. We selected
8 Kaggle competitions to simulate data processing workflows in real-world
application scenarios. Evaluation results demonstrate that AutoKaggle achieves
a validation submission rate of 0.85 and a comprehensive score of 0.82 in
typical data science pipelines, fully proving its effectiveness and
practicality in handling complex data science tasks.Summary
AI-Generated Summary