시간-MoE: 수십억 규모의 시계열 기반 모델과 전문가 혼합
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
저자: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
초록
과거 몇십 년 동안 시계열 예측을 위한 딥러닝 기술은 상당한 발전을 이루었습니다. 그러나 언어 및 시각 분야에서 대규모 사전 훈련의 성공에도 불구하고, 사전 훈련된 시계열 모델은 규모가 제한되어 있고 높은 비용으로 운영되어 실제 응용에서 더 큰 성능을 가진 예측 모델의 개발을 방해하고 있습니다. 이에 우리는 추론 비용을 줄이면서 더 크고 더 강력한 예측 기반 모델을 사전 훈련하기 위해 설계된 확장 가능하고 통합된 구조인 Time-MoE를 소개합니다. 희소한 전문가 집합(MoE) 설계를 활용하여 Time-MoE는 각 예측에 대해 네트워크의 하위 집합만 활성화하여 계산 효율성을 향상시키고 계산 부하를 줄이면서 높은 모델 용량을 유지합니다. 이를 통해 Time-MoE는 대응하는 추론 비용 증가 없이 효과적으로 확장할 수 있습니다. Time-MoE는 자기 회귀 방식으로 작동하며 다양한 입력 컨텍스트 길이로 유연한 예측 범위를 지원하는 디코더 전용 트랜스포머 모델 패밀리로 구성되어 있습니다. 우리는 이러한 모델을 최근 소개된 대규모 데이터 Time-300B에서 사전 훈련했으며, 이 데이터는 9개 도메인에 걸쳐 3000억 개 이상의 시간 지점을 포함하고 있습니다. 우리는 시계열 기반 모델을 24억 개의 매개변수까지 확장하여, 크게 향상된 예측 정확도를 달성했습니다. 우리의 결과는 시계열 예측의 맥락에서 토큰 및 모델 크기의 훈련 법칙의 적용 가능성을 검증합니다. 동일한 활성화된 매개변수 수나 동등한 계산 예산을 가진 밀집 모델과 비교했을 때, 우리의 모델은 일관되게 큰 폭으로 그들을 능가합니다. 이러한 발전으로 Time-MoE는 우수한 능력, 효율성 및 유연성을 갖춘 현실 세계의 시계열 예측 과제에 대한 최첨단 솔루션으로 위치하게 되었습니다.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary