AutoKaggle: Un framework multi-agente per la scienza dei dati autonoma nelle competizioni

Abstract

Le attività di data science che coinvolgono dati tabulari presentano sfide complesse che richiedono approcci sofisticati alla risoluzione dei problemi. Proponiamo AutoKaggle, un framework potente e centrato sull'utente che assiste i data scientist nel completamento delle pipeline dati quotidiane attraverso un sistema collaborativo multi-agente. AutoKaggle implementa un processo di sviluppo iterativo che combina esecuzione del codice, debugging e test unitari completi per garantire la correttezza del codice e la coerenza logica. Il framework offre flussi di lavoro altamente personalizzabili, consentendo agli utenti di intervenire in ogni fase, integrando così l'intelligenza automatizzata con l'esperienza umana. Il nostro toolkit universale di data science, che comprende funzioni validate per la pulizia dei dati, l'ingegneria delle caratteristiche e la modellazione, costituisce la base di questa soluzione, migliorando la produttività attraverso la razionalizzazione delle attività comuni. Abbiamo selezionato 8 competizioni Kaggle per simulare flussi di lavoro di elaborazione dati in scenari di applicazione del mondo reale. I risultati dell'evaluazione dimostrano che AutoKaggle raggiunge un tasso di sottomissione di validazione del 0.85 e un punteggio completo del 0.82 nelle tipiche pipeline di data science, dimostrando appieno la sua efficacia e praticità nella gestione di complesse attività di data science.

English

Data science tasks involving tabular data present complex challenges that require sophisticated problem-solving approaches. We propose AutoKaggle, a powerful and user-centric framework that assists data scientists in completing daily data pipelines through a collaborative multi-agent system. AutoKaggle implements an iterative development process that combines code execution, debugging, and comprehensive unit testing to ensure code correctness and logic consistency. The framework offers highly customizable workflows, allowing users to intervene at each phase, thus integrating automated intelligence with human expertise. Our universal data science toolkit, comprising validated functions for data cleaning, feature engineering, and modeling, forms the foundation of this solution, enhancing productivity by streamlining common tasks. We selected 8 Kaggle competitions to simulate data processing workflows in real-world application scenarios. Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.

AutoKaggle: Un framework multi-agente per la scienza dei dati autonoma nelle competizioni

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

Abstract

Summary

Support