DSBench: 데이터 과학 요원들이 데이터 과학 전문가가 되기까지 얼마나 떨어져 있는가?
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?
September 12, 2024
저자: Liqiang Jing, Zhehui Huang, Xiaoyang Wang, Wenlin Yao, Wenhao Yu, Kaixin Ma, Hongming Zhang, Xinya Du, Dong Yu
cs.AI
초록
대형 언어 모델 (LLMs) 및 대형 비전-언어 모델 (LVLMs)은 인상적인 언어/시각 추론 능력을 보여주며, 쇼핑 어시스턴트나 AI 소프트웨어 엔지니어와 같은 특정 응용 프로그램을 위해 에이전트를 구축하는 최근 추세를 촉발시켰습니다. 최근에는 많은 데이터 과학 벤치마크가 제안되어 그들의 성능을 데이터 과학 분야에서 조사하였습니다. 그러나 기존의 데이터 과학 벤치마크는 여전히 단순화된 설정으로 인해 실제 데이터 과학 응용 프로그램과 비교할 때 부족함이 있습니다. 이 간극을 메우기 위해 우리는 현실적인 작업을 수행하는 데이터 과학 에이전트를 평가하기 위해 설계된 포괄적인 벤치마크인 DSBench를 소개합니다. 이 벤치마크에는 Eloquence와 Kaggle 대회에서 가져온 466개의 데이터 분석 작업과 74개의 데이터 모델링 작업이 포함되어 있습니다. DSBench는 긴 컨텍스트, 다중 모달 작업 배경, 대용량 데이터 파일 및 다중 테이블 구조를 활용한 추론, 그리고 엔드-투-엔드 데이터 모델링 작업을 포함하여 현실적인 설정을 제공합니다. 최첨단 LLMs, LVLMs 및 에이전트의 평가 결과, 대부분의 작업에서 어려움을 겪으며, 최고의 에이전트는 데이터 분석 작업의 34.12%만 해결하고 상대 성능 갭 (RPG)은 34.74%에 달합니다. 이 결과들은 더 실용적이고 지능적이며 자율적인 데이터 과학 에이전트를 개발하기 위한 추가적인 발전이 필요함을 강조합니다.
English
Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have
demonstrated impressive language/vision reasoning abilities, igniting the
recent trend of building agents for targeted applications such as shopping
assistants or AI software engineers. Recently, many data science benchmarks
have been proposed to investigate their performance in the data science domain.
However, existing data science benchmarks still fall short when compared to
real-world data science applications due to their simplified settings. To
bridge this gap, we introduce DSBench, a comprehensive benchmark designed to
evaluate data science agents with realistic tasks. This benchmark includes 466
data analysis tasks and 74 data modeling tasks, sourced from Eloquence and
Kaggle competitions. DSBench offers a realistic setting by encompassing long
contexts, multimodal task backgrounds, reasoning with large data files and
multi-table structures, and performing end-to-end data modeling tasks. Our
evaluation of state-of-the-art LLMs, LVLMs, and agents shows that they struggle
with most tasks, with the best agent solving only 34.12% of data analysis tasks
and achieving a 34.74% Relative Performance Gap (RPG). These findings
underscore the need for further advancements in developing more practical,
intelligent, and autonomous data science agents.Summary
AI-Generated Summary