ChatPaper.aiChatPaper

BlackGoose Rimer: Nutzung von RWKV-7 als einfacher, aber überlegener Ersatz für Transformer in der großskaligen Zeitreihenmodellierung

BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

March 8, 2025
Autoren: Li weile, Liu Xiao
cs.AI

Zusammenfassung

Zeitreihenmodelle stehen vor erheblichen Herausforderungen, wenn es darum geht, große und komplexe Datensätze zu bewältigen, ähnlich der Skalierung, die von großen Sprachmodellen (LLMs) erreicht wird. Die einzigartigen Eigenschaften von Zeitreihendaten und die rechenintensiven Anforderungen der Modellskalierung erfordern innovative Ansätze. Während Forscher verschiedene Architekturen wie Transformers, LSTMs und GRUs untersucht haben, um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Lösung mit RWKV-7 vor, das Meta-Lernen in seinen Zustandsaktualisierungsmechanismus integriert. Durch die Einbindung der Zeitmix- und Kanalmix-Komponenten von RWKV-7 in das transformerbasierte Zeitreihenmodell Timer erzielen wir eine erhebliche Leistungssteigerung von etwa 1,13 bis 43,3x und eine Reduzierung der Trainingszeit um das 4,5-fache bei 1/23 der Parameter, wobei gleichzeitig weniger Parameter verwendet werden. Unser Code und die Modellgewichte sind für weitere Forschung und Entwicklung öffentlich verfügbar unter https://github.com/Alic-Li/BlackGoose_Rimer.
English
Time series models face significant challenges in scaling to handle large and complex datasets, akin to the scaling achieved by large language models (LLMs). The unique characteristics of time series data and the computational demands of model scaling necessitate innovative approaches. While researchers have explored various architectures such as Transformers, LSTMs, and GRUs to address these challenges, we propose a novel solution using RWKV-7, which incorporates meta-learning into its state update mechanism. By integrating RWKV-7's time mix and channel mix components into the transformer-based time series model Timer, we achieve a substantial performance improvement of approximately 1.13 to 43.3x and a 4.5x reduction in training time with 1/23 parameters, all while utilizing fewer parameters. Our code and model weights are publicly available for further research and development at https://github.com/Alic-Li/BlackGoose_Rimer.

Summary

AI-Generated Summary

PDF52March 11, 2025