ARWKV: Pretraining ist nicht das, was wir brauchen, ein RNN-Aufmerksamkeits-basiertes Sprachmodell, das aus dem Transformer geboren wurde.

Zusammenfassung

Wie bekannt ist, haben hybride quadratische und subquadratische Aufmerksamkeitsmodelle in Multi-Head-Architekturen sowohl Transformer- als auch lineare RNN-Modelle übertroffen, wobei diese Arbeiten sich hauptsächlich auf die Reduzierung der KV-Komplexität und die Verbesserung der Effizienz konzentrieren. Für weitere Forschung zur Ausdrucksstärke stellen wir unsere Serie von Modellen vor, die aus Qwen 2.5 destilliert wurden, basierend auf rein nativer RWKV-7-Aufmerksamkeit, die darauf abzielt, RNN ausdrucksstärker zu machen und eine Zustandsverfolgungsfähigkeit jenseits der Transformer zu demonstrieren. Wir arbeiten mit QRWK 32B basierend auf der RWKV-6-Architektur, einem weiteren Ansatz, der die gesamte Wissensverarbeitungszeit auf nur 8 Stunden reduziert, indem 16 AMD MI300X-GPUs verwendet werden, während die Leistung von Qwen 2.5 beibehalten wird. Tatsächlich kann der Destillationsprozess jedes LLM nutzen, nicht nur Qwen, und ermöglicht den Wissenstransfer von größeren LLMs zu kleineren mit weniger Tokens. Wir werden den detaillierten Prozess erläutern und unsere Erkenntnisse zum Aufbau leistungsstärkerer Grundlagenmodelle teilen. Bitte beachten Sie, dass es sich um eine laufende Arbeit handelt, die kontinuierlich aktualisiert wird. Die Modell-Checkpoints und der Quellcode sind verfügbar unter https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.

English

As is known, hybrid quadratic and subquadratic attention models in multi-head architectures have surpassed both Transformer and Linear RNN models , with these works primarily focusing on reducing KV complexity and improving efficiency. For further research on expressiveness, we introduce our series of models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which aims to make RNN more expressive and demonstrates state tracking ability beyond transformers. We work with QRWK 32B based on RWKV-6 architecture, another approach that reduces the entire knowledge processing time to just 8 hours using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the distillation process can utilize any LLM, not just Qwen, and enables knowledge transfer from larger LLMs to smaller ones with more fewer tokens. We will explain the detailed process and share our insights on building more powerful foundation models. Please note that this is an ongoing work that will be updated continuously. The model checkpoints and source code are available at https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside}, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.

ARWKV: Pretraining ist nicht das, was wir brauchen, ein RNN-Aufmerksamkeits-basiertes Sprachmodell, das aus dem Transformer geboren wurde.

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Zusammenfassung

Summary

Support

Support