인구 인식 확산을 이용한 시계열 생성
Population Aware Diffusion for Time Series Generation
January 1, 2025
저자: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
초록
확산 모델은 고품질 시계열 (TS) 데이터를 생성하는 능력을 보여주었습니다. 초기 성공에도 불구하고, 기존 연구들은 주로 개별 수준에서 데이터의 신뢰성에 초점을 맞추었지만, 전체 데이터셋에서 인구 수준의 특성을 보존하는 데 덜 주의를 기울였습니다. 이러한 인구 수준의 특성에는 각 차원의 값 분포와 서로 다른 차원 간의 특정 기능적 의존성 (예: 교차 상관 관계, CC)의 분포가 포함됩니다. 예를 들어, 주택의 에너지 소비 TS 데이터를 생성할 때, 외부 온도와 부엌 온도의 값 분포뿐만 아니라 그들 사이의 CC 분포도 보존되어야 합니다. 이러한 TS 인구 수준의 특성을 보존하는 것은 데이터셋의 통계적 통찰력을 유지하고 모델 편향을 완화하며 TS 예측과 같은 하류 작업을 강화하는 데 중요합니다. 그러나 기존 모델에서는 종종 간과됩니다. 따라서 기존 모델에 의해 생성된 데이터는 원본 데이터와의 분포 이동을 나타내는 경우가 많습니다. 우리는 인구 수준의 특성을 더 잘 보존하는 새로운 TS 생성 모델인 Time Series (PaD-TS)를 제안합니다. PaD-TS의 주요 혁신점은 다음과 같습니다. 1) TS 인구 수준의 특성 보존을 명시적으로 통합한 새로운 교육 방법, 그리고 2) TS 데이터 구조를 더 잘 포착하는 새로운 이중 채널 인코더 모델 아키텍처입니다. 주요 벤치마크 데이터셋에서의 경험적 결과는 PaD-TS가 실제 데이터와 합성 데이터 간의 평균 CC 분포 이동 점수를 5.9배 개선할 수 있으며, 개별 수준의 신뢰성에 대한 최첨단 모델과 유사한 성능을 유지할 수 있다는 것을 보여줍니다.
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary