時系列生成のための集団認識拡散
Population Aware Diffusion for Time Series Generation
January 1, 2025
著者: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
要旨
拡散モデルは、高品質な時系列(TS)データを生成する能力を示しています。初期の成功にもかかわらず、既存の研究は主に個々のデータの信頼性に焦点を当てており、データ全体の人口レベルの特性を保持することにはあまり注意が払われていません。このような人口レベルの特性には、各次元の値分布や異なる次元間の特定の機能的依存関係(例:クロス相関、CC)の分布が含まれます。例えば、家庭のエネルギー消費のTSデータを生成する際には、外気温とキッチン温度の値分布、およびそれらの間のCCの分布を保持する必要があります。このようなTSの人口レベルの特性を保持することは、データセットの統計的洞察を維持し、モデルのバイアスを軽減し、TS予測などの下流タスクを強化する上で重要です。しかし、これは既存のモデルではしばしば見過ごされています。したがって、既存のモデルによって生成されたデータは、元のデータからの分布シフトを持つことがよくあります。私たちは、時系列(TS)データの人口レベルの特性をよりよく保持する新しいTS生成モデルであるPopulation-aware Diffusion for Time Series(PaD-TS)を提案します。PaD-TSの主な特長は、1) TSの人口レベルの特性の保存を明示的に組み込んだ新しいトレーニング方法、および2) TSデータ構造をよりよく捉える新しいデュアルチャンネルエンコーダーモデルアーキテクチャです。主要なベンチマークデータセットでの実証結果は、PaD-TSが、実データと合成データの平均CC分布シフトスコアを5.9倍改善し、個別レベルの信頼性に関して最先端のモデルと同等の性能を維持できることを示しています。
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary