Verstärkungslernen für das Schließen in kleinen LLMs: Was funktioniert und was nicht
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Autoren: Quy-Anh Dang, Chris Ngo
cs.AI
Zusammenfassung
Die Verbesserung der Fähigkeiten zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) basiert typischerweise auf massiven Rechenressourcen und umfangreichen Datensätzen, was die Zugänglichkeit in ressourcenbeschränkten Umgebungen einschränkt. Unsere Studie untersucht das Potenzial von Reinforcement Learning (RL), um die logische Schlussfolgerung in kleinen LLMs zu verbessern, wobei der Fokus auf einem Modell mit 1,5 Milliarden Parametern liegt, DeepSeek-R1-Distill-Qwen-1.5B, unter strengen Einschränkungen: Training auf 4 NVIDIA A40 GPUs (jeweils 48 GB VRAM) innerhalb von 24 Stunden. Durch die Anpassung des Group Relative Policy Optimization (GRPO)-Algorithmus und die Erstellung eines kompakten, hochwertigen Datensatzes für mathematische Schlussfolgerungen führten wir drei Experimente durch, um das Modellverhalten und die Leistung zu untersuchen. Unsere Ergebnisse zeigen schnelle Fortschritte in der logischen Schlussfolgerung – z. B. stieg die Genauigkeit bei AMC23 von 63 % auf 80 % und AIME24 erreichte 46,7 %, womit o1-preview übertroffen wurde – unter Verwendung von nur 7.000 Stichproben und Trainingskosten von 42 US-Dollar, verglichen mit Tausenden von Dollar für Baseline-Modelle. Allerdings traten Herausforderungen wie Optimierungsinstabilität und Längenbeschränkungen bei längerem Training auf. Diese Ergebnisse unterstreichen die Wirksamkeit von RL-basiertem Fine-Tuning für kleine LLMs und bieten eine kosteneffiziente Alternative zu groß angelegten Ansätzen. Wir veröffentlichen unseren Code und unsere Datensätze als Open-Source-Ressourcen, die Einblicke in Kompromisse bieten und eine Grundlage für skalierbare, logisch schlussfolgerungsfähige LLMs in ressourcenbeschränkten Umgebungen schaffen. Alle Ressourcen sind verfügbar unter https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary