Verstärkungslernen für das Schließen in kleinen LLMs: Was funktioniert und was nicht

Zusammenfassung

Die Verbesserung der Fähigkeiten zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) basiert typischerweise auf massiven Rechenressourcen und umfangreichen Datensätzen, was die Zugänglichkeit in ressourcenbeschränkten Umgebungen einschränkt. Unsere Studie untersucht das Potenzial von Reinforcement Learning (RL), um die logische Schlussfolgerung in kleinen LLMs zu verbessern, wobei der Fokus auf einem Modell mit 1,5 Milliarden Parametern liegt, DeepSeek-R1-Distill-Qwen-1.5B, unter strengen Einschränkungen: Training auf 4 NVIDIA A40 GPUs (jeweils 48 GB VRAM) innerhalb von 24 Stunden. Durch die Anpassung des Group Relative Policy Optimization (GRPO)-Algorithmus und die Erstellung eines kompakten, hochwertigen Datensatzes für mathematische Schlussfolgerungen führten wir drei Experimente durch, um das Modellverhalten und die Leistung zu untersuchen. Unsere Ergebnisse zeigen schnelle Fortschritte in der logischen Schlussfolgerung – z. B. stieg die Genauigkeit bei AMC23 von 63 % auf 80 % und AIME24 erreichte 46,7 %, womit o1-preview übertroffen wurde – unter Verwendung von nur 7.000 Stichproben und Trainingskosten von 42 US-Dollar, verglichen mit Tausenden von Dollar für Baseline-Modelle. Allerdings traten Herausforderungen wie Optimierungsinstabilität und Längenbeschränkungen bei längerem Training auf. Diese Ergebnisse unterstreichen die Wirksamkeit von RL-basiertem Fine-Tuning für kleine LLMs und bieten eine kosteneffiziente Alternative zu groß angelegten Ansätzen. Wir veröffentlichen unseren Code und unsere Datensätze als Open-Source-Ressourcen, die Einblicke in Kompromisse bieten und eine Grundlage für skalierbare, logisch schlussfolgerungsfähige LLMs in ressourcenbeschränkten Umgebungen schaffen. Alle Ressourcen sind verfügbar unter https://github.com/knoveleng/open-rs.

English

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Verstärkungslernen für das Schließen in kleinen LLMs: Was funktioniert und was nicht

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Zusammenfassung

Summary

Support