데이터 과학 모델을 위한 스카이라인 데이터셋 생성
Generating Skyline Datasets for Data Science Models
February 16, 2025
저자: Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
cs.AI
초록
다양한 데이터 기반 AI 및 머신 러닝 모델에 필요한 고품질 데이터셋을 준비하는 것은 데이터 기반 분석의 핵심 작업이 되었습니다. 기존의 데이터 탐색 방법은 일반적으로 단일 사전 정의된 품질 측정 기준에 따라 데이터셋을 통합하므로, 이는 다운스트림 작업에 편향을 초래할 수 있습니다. 본 논문은 사용자 정의 모델 성능 측정 기준을 다중으로 최적화하여 데이터셋을 탐색하는 MODis 프레임워크를 소개합니다. 주어진 데이터 소스 집합과 모델에 대해, MODis는 데이터 소스를 선택하고 통합하여 스카이라인 데이터셋을 생성하며, 이 데이터셋 위에서 모델이 모든 성능 측정 기준에서 원하는 성능을 발휘할 것으로 기대됩니다. 우리는 MODis를 다중 목표 유한 상태 변환기로 공식화하고, 스카이라인 데이터셋을 생성하기 위한 세 가지 실행 가능한 알고리즘을 도출했습니다. 첫 번째 알고리즘은 "보편적 스키마에서 축소" 전략을 채택하여, 보편적 스키마에서 시작하여 유망하지 않은 데이터를 반복적으로 제거합니다. 두 번째 알고리즘은 데이터 증강과 축소를 교차적으로 수행하는 양방향 전략을 통해 비용을 더욱 절감합니다. 또한, 스카이라인 데이터셋의 편향을 완화하기 위한 다양화 알고리즘을 도입했습니다. 우리는 스카이라인 데이터 탐색 알고리즘의 효율성과 효과를 실험적으로 검증하고, 데이터 과학 파이프라인 최적화에서의 응용 사례를 보여줍니다.
English
Preparing high-quality datasets required by various data-driven AI and
machine learning models has become a cornerstone task in data-driven analysis.
Conventional data discovery methods typically integrate datasets towards a
single pre-defined quality measure that may lead to bias for downstream tasks.
This paper introduces MODis, a framework that discovers datasets by optimizing
multiple user-defined, model-performance measures. Given a set of data sources
and a model, MODis selects and integrates data sources into a skyline dataset,
over which the model is expected to have the desired performance in all the
performance measures. We formulate MODis as a multi-goal finite state
transducer, and derive three feasible algorithms to generate skyline datasets.
Our first algorithm adopts a "reduce-from-universal" strategy, that starts with
a universal schema and iteratively prunes unpromising data. Our second
algorithm further reduces the cost with a bi-directional strategy that
interleaves data augmentation and reduction. We also introduce a
diversification algorithm to mitigate the bias in skyline datasets. We
experimentally verify the efficiency and effectiveness of our skyline data
discovery algorithms, and showcase their applications in optimizing data
science pipelines.Summary
AI-Generated Summary