ARWKV: Pretrain is niet wat we nodig hebben, een op RNN-Attention gebaseerd taalmodel ontstaan uit Transformer.
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
Auteurs: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
Samenvatting
Zoals bekend hebben hybride kwadratische en subkwadratische aandachtsmodellen in multi-head architecturen zowel Transformer- als Lineaire RNN-modellen overtroffen, waarbij deze werken zich voornamelijk richten op het verminderen van KV-complexiteit en het verbeteren van efficiëntie. Voor verder onderzoek naar expressiviteit introduceren we onze reeks modellen gedistilleerd uit Qwen 2.5, gebaseerd op pure inheemse RWKV-7 aandacht, die tot doel heeft RNN expressiever te maken en het vermogen tot toestandsopvolging te tonen dat verder gaat dan transformers. We werken met QRWK 32B gebaseerd op RWKV-6 architectuur, een andere benadering die de totale verwerkingstijd van kennis terugbrengt naar slechts 8 uur met behulp van 16 AMD MI300X GPU's, terwijl de prestaties van Qwen 2.5 behouden blijven. In feite kan het distillatieproces elk LLM gebruiken, niet alleen Qwen, en maakt het kennisoverdracht mogelijk van grotere LLM's naar kleinere met minder tokens. We zullen het gedetailleerde proces uitleggen en onze inzichten delen over het bouwen van krachtigere basismodellen. Houd er rekening mee dat dit een lopend werk is dat voortdurend zal worden bijgewerkt. De modelcontrolepunten en broncode zijn beschikbaar op https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.Summary
AI-Generated Summary