Tina: Kleine Reasoning-Modelle mittels LoRA

Zusammenfassung

Wie kosteneffizient können starke Fähigkeiten zum logischen Denken in Sprachmodellen erreicht werden? Angetrieben von dieser grundlegenden Frage präsentieren wir Tina, eine Familie von kleinen Denkmodellen, die mit hoher Kosteneffizienz erreicht werden. Bemerkenswerterweise zeigt Tina, dass erhebliche Denkleistungen mit minimalen Ressourcen entwickelt werden können, indem parameter-effiziente Aktualisierungen während des Reinforcement Learning (RL) unter Verwendung von Low-Rank Adaptation (LoRA) auf ein bereits kleines Basismodell mit 1,5 Milliarden Parametern angewendet werden. Dieser minimalistische Ansatz erzeugt Modelle, deren Denkleistung mit den auf demselben Basismodell aufgebauten SOTA-RL-Denkmodellen konkurrieren und diese manchmal sogar übertreffen kann. Entscheidend ist, dass dies zu einem winzigen Bruchteil der rechnerischen Nachschulungskosten erreicht wird, die von bestehenden SOTA-Modellen verwendet werden. Tatsächlich erreicht das beste Tina-Modell eine Steigerung der Denkleistung um >20 % und eine Pass@1-Genauigkeit von 43,33 % auf AIME24 bei nur 9 USD Nachschulungs- und Evaluierungskosten (d. h. eine geschätzte Kostenreduktion um das 260-fache). Unsere Arbeit zeigt die überraschende Effektivität von effizientem RL-Denken durch LoRA. Wir validieren dies über mehrere Open-Source-Denkdatensätze und verschiedene Ablationsszenarien, ausgehend von einem einzigen, festen Satz von Hyperparametern. Darüber hinaus stellen wir die Hypothese auf, dass diese Effektivität und Effizienz darauf zurückzuführen sind, dass LoRA das Modell schnell an das strukturelle Format des durch RL belohnten Denkens anpasst, während das zugrunde liegende Wissen des Basismodells weitgehend erhalten bleibt. Im Dienst der Zugänglichkeit und offenen Forschung stellen wir den gesamten Code, Trainingsprotokolle und Modellgewichte & Checkpoints vollständig Open Source.

English

How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

Tina: Kleine Reasoning-Modelle mittels LoRA

Tina: Tiny Reasoning Models via LoRA

Zusammenfassung

Summary

Support

Support