Tina: Kleine Reasoning-Modelle mittels LoRA
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
Autoren: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
Zusammenfassung
Wie kosteneffizient können starke Fähigkeiten zum logischen Denken in Sprachmodellen erreicht werden? Angetrieben von dieser grundlegenden Frage präsentieren wir Tina, eine Familie von kleinen Denkmodellen, die mit hoher Kosteneffizienz erreicht werden. Bemerkenswerterweise zeigt Tina, dass erhebliche Denkleistungen mit minimalen Ressourcen entwickelt werden können, indem parameter-effiziente Aktualisierungen während des Reinforcement Learning (RL) unter Verwendung von Low-Rank Adaptation (LoRA) auf ein bereits kleines Basismodell mit 1,5 Milliarden Parametern angewendet werden. Dieser minimalistische Ansatz erzeugt Modelle, deren Denkleistung mit den auf demselben Basismodell aufgebauten SOTA-RL-Denkmodellen konkurrieren und diese manchmal sogar übertreffen kann. Entscheidend ist, dass dies zu einem winzigen Bruchteil der rechnerischen Nachschulungskosten erreicht wird, die von bestehenden SOTA-Modellen verwendet werden. Tatsächlich erreicht das beste Tina-Modell eine Steigerung der Denkleistung um >20 % und eine Pass@1-Genauigkeit von 43,33 % auf AIME24 bei nur 9 USD Nachschulungs- und Evaluierungskosten (d. h. eine geschätzte Kostenreduktion um das 260-fache). Unsere Arbeit zeigt die überraschende Effektivität von effizientem RL-Denken durch LoRA. Wir validieren dies über mehrere Open-Source-Denkdatensätze und verschiedene Ablationsszenarien, ausgehend von einem einzigen, festen Satz von Hyperparametern. Darüber hinaus stellen wir die Hypothese auf, dass diese Effektivität und Effizienz darauf zurückzuführen sind, dass LoRA das Modell schnell an das strukturelle Format des durch RL belohnten Denkens anpasst, während das zugrunde liegende Wissen des Basismodells weitgehend erhalten bleibt. Im Dienst der Zugänglichkeit und offenen Forschung stellen wir den gesamten Code, Trainingsprotokolle und Modellgewichte & Checkpoints vollständig Open Source.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary