V-Seek: Beschleunigung des LLM-Reasonings auf Open-Hardware-Serverklassen-RISC-V-Plattformen

Zusammenfassung

Das jüngste exponentielle Wachstum von Large Language Models (LLMs) basierte auf GPU-basierten Systemen. CPUs entwickeln sich jedoch zunehmend als flexible und kostengünstigere Alternative, insbesondere für Inferenz- und Reasoning-Workloads. RISC-V gewinnt in diesem Bereich schnell an Bedeutung, da es sich um eine offene und herstellerneutrale Befehlssatzarchitektur (ISA) handelt. Allerdings sind die RISC-V-Hardware für LLM-Workloads und das entsprechende Software-Ökosystem noch nicht vollständig ausgereift und optimiert, insbesondere aufgrund der Anforderungen an domänenspezifische Anpassungen. Diese Arbeit zielt darauf ab, diese Lücke zu schließen, indem sie sich auf die Optimierung der LLM-Inferenz auf dem Sophon SG2042 konzentriert, dem ersten kommerziell erhältlichen Many-Core-RISC-V-CPU mit Vektorverarbeitungsfähigkeiten. Bei zwei aktuellen, für Reasoning optimierten State-of-the-Art-LLMs, DeepSeek R1 Distill Llama 8B und DeepSeek R1 Distill QWEN 14B, erreichen wir 4,32/2,29 Token/s für die Token-Generierung und 6,54/3,68 Token/s für die Prompt-Verarbeitung, mit einer Beschleunigung von bis zu 2,9x/3,0x im Vergleich zu unserer Baseline.

English

The recent exponential growth of Large Language Models (LLMs) has relied on GPU-based systems. However, CPUs are emerging as a flexible and lower-cost alternative, especially when targeting inference and reasoning workloads. RISC-V is rapidly gaining traction in this area, given its open and vendor-neutral ISA. However, the RISC-V hardware for LLM workloads and the corresponding software ecosystem are not fully mature and streamlined, given the requirement of domain-specific tuning. This paper aims at filling this gap, focusing on optimizing LLM inference on the Sophon SG2042, the first commercially available many-core RISC-V CPU with vector processing capabilities. On two recent state-of-the-art LLMs optimized for reasoning, DeepSeek R1 Distill Llama 8B and DeepSeek R1 Distill QWEN 14B, we achieve 4.32/2.29 token/s for token generation and 6.54/3.68 token/s for prompt processing, with a speed up of up 2.9x/3.0x compared to our baseline.

V-Seek: Beschleunigung des LLM-Reasonings auf Open-Hardware-Serverklassen-RISC-V-Plattformen

V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

Zusammenfassung

Summary

Support