ChatPaper.aiChatPaper

Tina: Kleine Redeneermodellen via LoRA

Tina: Tiny Reasoning Models via LoRA

April 22, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI

Samenvatting

Hoe kosteneffectief kunnen sterke redeneervaardigheden worden bereikt in taalmodel- len? Gedreven door deze fundamentele vraag presenteren we Tina, een familie van kleine redeneermodellen die met hoge kostenefficiëntie zijn gerealiseerd. Opmerkelijk is dat Tina aantoont dat aanzienlijke redeneerprestaties kunnen worden ontwikkeld met slechts minimale middelen, door parameter-efficiënte updates toe te passen tijdens reinforcement learning (RL), met behulp van low-rank adaptation (LoRA), op een al klein basis- model van 1,5B parameters. Deze minimalistische aanpak produceert modellen die redeneerprestaties bereiken die concurrerend zijn met, en soms zelfs overtreffen, SOTA RL-redeneermodellen die op hetzelfde basismodel zijn gebouwd. Cruciaal is dat dit wordt bereikt tegen een fractie van de computationele kosten na de training die worden gebruikt door bestaande SOTA-modellen. Sterker nog, het beste Tina-model behaalt een >20\% verbetering in redeneerprestaties en 43,33\% Pass@1 nauwkeurigheid op AIME24, tegen slechts \$9 USD aan kosten na de training en evaluatie (d.w.z. een geschatte 260x kostenreductie). Ons werk onthult de verrassende effectiviteit van efficiënt RL-redeneren via LoRA. We valideren dit over meerdere open-source redeneerdatasets en diverse ablatiesettings, uitgaande van een enkele, vaste set hyperparameters. Bovendien hypotheseren we dat deze effectiviteit en efficiëntie voortkomen uit het feit dat LoRA het model snel aanpast aan de structurele vorm van redeneren die door RL wordt beloond, terwijl de onderliggende kennis van het basismodel grotendeels behouden blijft. In het belang van toegankelijkheid en open onderzoek maken we alle code, trainingslogs en modelgewichten \& checkpoints volledig open source.
English
How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

Summary

AI-Generated Summary

PDF464April 24, 2025