Diffusione consapevole della popolazione per la generazione di serie temporali
Population Aware Diffusion for Time Series Generation
January 1, 2025
Autori: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI
Abstract
I modelli di diffusione hanno dimostrato una capacità promettente nella generazione di dati di serie temporali (TS) di alta qualità. Nonostante il successo iniziale, i lavori esistenti si concentrano principalmente sull'autenticità dei dati a livello individuale, ma prestano meno attenzione alla conservazione delle proprietà a livello di popolazione sull'intero dataset. Tali proprietà a livello di popolazione includono le distribuzioni dei valori per ciascuna dimensione e le distribuzioni di determinate dipendenze funzionali (ad esempio, la cross-correlazione, CC) tra diverse dimensioni. Ad esempio, nella generazione di dati di serie temporali sul consumo energetico delle abitazioni, le distribuzioni dei valori della temperatura esterna e della temperatura della cucina dovrebbero essere conservate, così come la distribuzione di CC tra di esse. Preservare tali proprietà a livello di popolazione delle TS è fondamentale per mantenere le intuizioni statistiche dei dataset, mitigare i bias dei modelli e potenziare attività successive come la previsione delle serie temporali. Tuttavia, spesso viene trascurato dai modelli esistenti. Di conseguenza, i dati generati dai modelli esistenti presentano spesso spostamenti delle distribuzioni rispetto ai dati originali. Proponiamo Population-aware Diffusion for Time Series (PaD-TS), un nuovo modello di generazione di TS che conserva meglio le proprietà a livello di popolazione. Le principali novità di PaD-TS includono 1) un nuovo metodo di addestramento che incorpora esplicitamente la conservazione delle proprietà a livello di popolazione delle TS e 2) un'architettura di modello di codificatore a doppio canale che cattura meglio la struttura dei dati delle TS. I risultati empirici nei principali dataset di riferimento mostrano che PaD-TS può migliorare il punteggio di spostamento medio della distribuzione di CC tra dati reali e sintetici del 5,9x, mantenendo al contempo prestazioni paragonabili ai modelli all'avanguardia sull'autenticità a livello individuale.
English
Diffusion models have shown promising ability in generating high-quality time
series (TS) data. Despite the initial success, existing works mostly focus on
the authenticity of data at the individual level, but pay less attention to
preserving the population-level properties on the entire dataset. Such
population-level properties include value distributions for each dimension and
distributions of certain functional dependencies (e.g., cross-correlation, CC)
between different dimensions. For instance, when generating house energy
consumption TS data, the value distributions of the outside temperature and the
kitchen temperature should be preserved, as well as the distribution of CC
between them. Preserving such TS population-level properties is critical in
maintaining the statistical insights of the datasets, mitigating model bias,
and augmenting downstream tasks like TS prediction. Yet, it is often overlooked
by existing models. Hence, data generated by existing models often bear
distribution shifts from the original data. We propose Population-aware
Diffusion for Time Series (PaD-TS), a new TS generation model that better
preserves the population-level properties. The key novelties of PaD-TS include
1) a new training method explicitly incorporating TS population-level property
preservation, and 2) a new dual-channel encoder model architecture that better
captures the TS data structure. Empirical results in major benchmark datasets
show that PaD-TS can improve the average CC distribution shift score between
real and synthetic data by 5.9x while maintaining a performance comparable to
state-of-the-art models on individual-level authenticity.Summary
AI-Generated Summary