Difusão Consciente da População para Geração de Séries Temporais

Population Aware Diffusion for Time Series Generation

January 1, 2025
Autores: Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
cs.AI

Resumo

Os modelos de difusão têm demonstrado uma capacidade promissora na geração de dados de séries temporais (TS) de alta qualidade. Apesar do sucesso inicial, os trabalhos existentes geralmente se concentram na autenticidade dos dados ao nível individual, mas prestam menos atenção à preservação das propriedades em nível populacional em todo o conjunto de dados. Essas propriedades em nível populacional incluem distribuições de valores para cada dimensão e distribuições de certas dependências funcionais (por exemplo, correlação cruzada, CC) entre diferentes dimensões. Por exemplo, ao gerar dados de TS de consumo de energia doméstica, as distribuições de valores da temperatura externa e da temperatura da cozinha devem ser preservadas, assim como a distribuição de CC entre elas. Preservar tais propriedades em nível populacional de TS é crucial para manter as percepções estatísticas dos conjuntos de dados, mitigar o viés do modelo e aprimorar tarefas subsequentes como a previsão de TS. No entanto, muitas vezes é negligenciado pelos modelos existentes. Portanto, os dados gerados pelos modelos existentes frequentemente apresentam desvios de distribuição em relação aos dados originais. Propomos a Difusão Consciente da População para Séries Temporais (PaD-TS), um novo modelo de geração de TS que preserva melhor as propriedades em nível populacional. As principais inovações do PaD-TS incluem 1) um novo método de treinamento que incorpora explicitamente a preservação das propriedades em nível populacional de TS e 2) uma nova arquitetura de modelo de codificador de canal duplo que captura melhor a estrutura dos dados de TS. Resultados empíricos em grandes conjuntos de dados de referência mostram que o PaD-TS pode melhorar o escore de desvio de distribuição média de CC entre dados reais e sintéticos em 5,9 vezes, mantendo um desempenho comparável aos modelos de ponta na autenticidade ao nível individual.
English
Diffusion models have shown promising ability in generating high-quality time series (TS) data. Despite the initial success, existing works mostly focus on the authenticity of data at the individual level, but pay less attention to preserving the population-level properties on the entire dataset. Such population-level properties include value distributions for each dimension and distributions of certain functional dependencies (e.g., cross-correlation, CC) between different dimensions. For instance, when generating house energy consumption TS data, the value distributions of the outside temperature and the kitchen temperature should be preserved, as well as the distribution of CC between them. Preserving such TS population-level properties is critical in maintaining the statistical insights of the datasets, mitigating model bias, and augmenting downstream tasks like TS prediction. Yet, it is often overlooked by existing models. Hence, data generated by existing models often bear distribution shifts from the original data. We propose Population-aware Diffusion for Time Series (PaD-TS), a new TS generation model that better preserves the population-level properties. The key novelties of PaD-TS include 1) a new training method explicitly incorporating TS population-level property preservation, and 2) a new dual-channel encoder model architecture that better captures the TS data structure. Empirical results in major benchmark datasets show that PaD-TS can improve the average CC distribution shift score between real and synthetic data by 5.9x while maintaining a performance comparable to state-of-the-art models on individual-level authenticity.

Summary

AI-Generated Summary

PDF62January 3, 2025