ChatPaper.aiChatPaper

RWKV-7 „Goose“ mit ausdrucksstarker dynamischer Zustandsentwicklung

RWKV-7 "Goose" with Expressive Dynamic State Evolution

March 18, 2025
Autoren: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
cs.AI

Zusammenfassung

Wir präsentieren RWKV-7 „Goose“, eine neue Architektur für Sequenzmodellierung, zusammen mit vortrainierten Sprachmodellen, die einen neuen State-of-the-Art in der Downstream-Leistung bei 3 Milliarden Parametern für multilinguale Aufgaben etablieren und die aktuelle State-of-the-Art-Leistung für die englische Sprache erreichen, obwohl sie mit deutlich weniger Tokens trainiert wurden als andere Top-3B-Modelle. Dennoch benötigen RWKV-7-Modelle nur konstanten Speicherverbrauch und konstante Inferenzzeit pro Token. RWKV-7 führt eine neu verallgemeinerte Formulierung der Delta-Regel mit vektorwertigem Gating und In-Context-Lernraten sowie eine entspannte Wertersetzungsregel ein. Wir zeigen, dass RWKV-7 Zustandsverfolgung durchführen und alle regulären Sprachen erkennen kann, während die Parallelisierbarkeit des Trainings erhalten bleibt. Dies übertrifft die Fähigkeiten von Transformern unter Standard-Komplexitätsannahmen, die auf TC^0 beschränkt sind. Um die Sprachmodellierungsfähigkeit von RWKV-7 zu demonstrieren, präsentieren wir auch einen erweiterten Open-Source-Multilingual-Korpus mit 3,1 Billionen Tokens und trainieren vier RWKV-7-Modelle mit 0,19 bis 2,9 Milliarden Parametern auf diesem Datensatz. Um Offenheit, Reproduzierbarkeit und Übernahme zu fördern, veröffentlichen wir unsere Modelle und die Auflistung der Datensatzkomponenten unter https://huggingface.co/RWKV sowie unseren Trainings- und Inferenzcode unter https://github.com/RWKV/RWKV-LM, alles unter der Apache-2.0-Lizenz.
English
We present RWKV-7 "Goose", a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to TC^0. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.

Summary

AI-Generated Summary

PDF14011March 19, 2025