V-Seek: Beschleunigung des LLM-Reasonings auf Open-Hardware-Serverklassen-RISC-V-Plattformen
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms
March 21, 2025
Autoren: Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini
cs.AI
Zusammenfassung
Das jüngste exponentielle Wachstum von Large Language Models (LLMs) basierte auf GPU-basierten Systemen. CPUs entwickeln sich jedoch zunehmend als flexible und kostengünstigere Alternative, insbesondere für Inferenz- und Reasoning-Workloads. RISC-V gewinnt in diesem Bereich schnell an Bedeutung, da es sich um eine offene und herstellerneutrale Befehlssatzarchitektur (ISA) handelt. Allerdings sind die RISC-V-Hardware für LLM-Workloads und das entsprechende Software-Ökosystem noch nicht vollständig ausgereift und optimiert, insbesondere aufgrund der Anforderungen an domänenspezifische Anpassungen. Diese Arbeit zielt darauf ab, diese Lücke zu schließen, indem sie sich auf die Optimierung der LLM-Inferenz auf dem Sophon SG2042 konzentriert, dem ersten kommerziell erhältlichen Many-Core-RISC-V-CPU mit Vektorverarbeitungsfähigkeiten.
Bei zwei aktuellen, für Reasoning optimierten State-of-the-Art-LLMs, DeepSeek R1 Distill Llama 8B und DeepSeek R1 Distill QWEN 14B, erreichen wir 4,32/2,29 Token/s für die Token-Generierung und 6,54/3,68 Token/s für die Prompt-Verarbeitung, mit einer Beschleunigung von bis zu 2,9x/3,0x im Vergleich zu unserer Baseline.
English
The recent exponential growth of Large Language Models (LLMs) has relied on
GPU-based systems. However, CPUs are emerging as a flexible and lower-cost
alternative, especially when targeting inference and reasoning workloads.
RISC-V is rapidly gaining traction in this area, given its open and
vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the
corresponding software ecosystem are not fully mature and streamlined, given
the requirement of domain-specific tuning. This paper aims at filling this gap,
focusing on optimizing LLM inference on the Sophon SG2042, the first
commercially available many-core RISC-V CPU with vector processing
capabilities.
On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1
Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s
for token generation and 6.54/3.68 token/s for prompt processing, with a speed
up of up 2.9x/3.0x compared to our baseline.Summary
AI-Generated Summary