AutoKaggle: 자율 데이터 과학 경쟁을 위한 다중 에이전트 프레임워크

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

October 27, 2024
저자: Ziming Li, Qianbo Zang, David Ma, Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge Zhang
cs.AI

초록

타블러 데이터를 포함하는 데이터 과학 작업은 복잡한 도전을 제기하여 정교한 문제 해결 방법이 필요합니다. 저희는 데이터 과학자들이 일상적인 데이터 파이프라인을 완성하는 데 도움을 주는 강력하고 사용자 중심의 AutoKaggle 프레임워크를 제안합니다. AutoKaggle은 협력적인 다중 에이전트 시스템을 통해 코드 실행, 디버깅 및 포괄적인 단위 테스트를 결합하여 코드의 정확성과 논리 일관성을 보장하는 반복적인 개발 프로세스를 구현합니다. 이 프레임워크는 매우 사용자 정의 가능한 워크플로우를 제공하여 사용자가 각 단계에서 개입할 수 있도록 하여 자동화된 지능과 인간 전문 지식을 통합합니다. 데이터 클리닝, 피처 엔지니어링 및 모델링을 위한 확인된 함수로 구성된 저희의 범용 데이터 과학 툴킷은 이 솔루션의 기반을 형성하며 일반적인 작업을 간소화하여 생산성을 향상시킵니다. 우리는 8개의 캐글 경연을 선택하여 실제 응용 시나리오에서 데이터 처리 워크플로우를 시뮬레이션했습니다. 평가 결과는 AutoKaggle이 전형적인 데이터 과학 파이프라인에서 0.85의 검증 제출률과 0.82의 포괄적인 점수를 달성함을 보여주며 복잡한 데이터 과학 작업을 처리하는 데 있어 효과적이고 실용적임을 완전히 입증합니다.
English
Data science tasks involving tabular data present complex challenges that require sophisticated problem-solving approaches. We propose AutoKaggle, a powerful and user-centric framework that assists data scientists in completing daily data pipelines through a collaborative multi-agent system. AutoKaggle implements an iterative development process that combines code execution, debugging, and comprehensive unit testing to ensure code correctness and logic consistency. The framework offers highly customizable workflows, allowing users to intervene at each phase, thus integrating automated intelligence with human expertise. Our universal data science toolkit, comprising validated functions for data cleaning, feature engineering, and modeling, forms the foundation of this solution, enhancing productivity by streamlining common tasks. We selected 8 Kaggle competitions to simulate data processing workflows in real-world application scenarios. Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.

Summary

AI-Generated Summary

PDF372November 16, 2024