Tina: Kleine Redeneermodellen via LoRA
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
Samenvatting
Hoe kosteneffectief kunnen sterke redeneervaardigheden worden bereikt in taalmodel-
len? Gedreven door deze fundamentele vraag presenteren we Tina, een familie van kleine
redeneermodellen die met hoge kostenefficiëntie zijn gerealiseerd. Opmerkelijk is dat
Tina aantoont dat aanzienlijke redeneerprestaties kunnen worden ontwikkeld met slechts
minimale middelen, door parameter-efficiënte updates toe te passen tijdens reinforcement
learning (RL), met behulp van low-rank adaptation (LoRA), op een al klein basis-
model van 1,5B parameters. Deze minimalistische aanpak produceert modellen die
redeneerprestaties bereiken die concurrerend zijn met, en soms zelfs overtreffen, SOTA
RL-redeneermodellen die op hetzelfde basismodel zijn gebouwd. Cruciaal is dat dit wordt
bereikt tegen een fractie van de computationele kosten na de training die worden
gebruikt door bestaande SOTA-modellen. Sterker nog, het beste Tina-model behaalt een
>20\% verbetering in redeneerprestaties en 43,33\% Pass@1 nauwkeurigheid op AIME24,
tegen slechts \$9 USD aan kosten na de training en evaluatie (d.w.z. een geschatte 260x
kostenreductie). Ons werk onthult de verrassende effectiviteit van efficiënt RL-redeneren
via LoRA. We valideren dit over meerdere open-source redeneerdatasets en diverse
ablatiesettings, uitgaande van een enkele, vaste set hyperparameters. Bovendien
hypotheseren we dat deze effectiviteit en efficiëntie voortkomen uit het feit dat LoRA
het model snel aanpast aan de structurele vorm van redeneren die door RL wordt
beloond, terwijl de onderliggende kennis van het basismodel grotendeels behouden blijft.
In het belang van toegankelijkheid en open onderzoek maken we alle code, trainingslogs
en modelgewichten \& checkpoints volledig open source.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary