ChatPaper.aiChatPaper

TTRL: Reinforcement Learning tijdens Testtijd

TTRL: Test-Time Reinforcement Learning

April 22, 2025
Auteurs: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
cs.AI

Samenvatting

Dit artikel onderzoekt Reinforcement Learning (RL) op data zonder expliciete labels voor redeneertaken in Large Language Models (LLMs). De kernuitdaging van het probleem is het schatten van beloningen tijdens inferentie zonder toegang tot grondwaarheid-informatie. Hoewel deze setting moeilijk lijkt, ontdekken we dat gangbare praktijken in Test-Time Scaling (TTS), zoals meerderheidsstemming, verrassend effectieve beloningen opleveren die geschikt zijn voor het aansturen van RL-training. In dit werk introduceren we Test-Time Reinforcement Learning (TTRL), een nieuwe methode voor het trainen van LLMs met RL op ongelabelde data. TTRL maakt zelf-evolutie van LLMs mogelijk door gebruik te maken van de voorkennis in de vooraf getrainde modellen. Onze experimenten tonen aan dat TTRL consistent betere prestaties levert over een verscheidenheid aan taken en modellen. Opmerkelijk is dat TTRL de pass@1-prestatie van Qwen-2.5-Math-7B met ongeveer 159% verbetert op de AIME 2024 met alleen ongelabelde testdata. Bovendien, hoewel TTRL alleen wordt begeleid door de Maj@N-metric, heeft TTRL aangetoond consistent de bovengrens van het initiële model te overschrijden en de prestaties te benaderen van modellen die direct zijn getraind op testdata met grondwaarheid-labels. Onze experimentele bevindingen valideren de algemene effectiviteit van TTRL over verschillende taken en benadrukken het potentieel van TTRL voor bredere taken en domeinen. GitHub: https://github.com/PRIME-RL/TTRL
English
This paper investigates Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs). The core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training. In this work, we introduce Test-Time Reinforcement Learning (TTRL), a novel method for training LLMs using RL on unlabeled data. TTRL enables self-evolution of LLMs by utilizing the priors in the pre-trained models. Our experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the pass@1 performance of Qwen-2.5-Math-7B by approximately 159% on the AIME 2024 with only unlabeled test data. Furthermore, although TTRL is only supervised by the Maj@N metric, TTRL has demonstrated performance to consistently surpass the upper limit of the initial model, and approach the performance of models trained directly on test data with ground-truth labels. Our experimental findings validate the general effectiveness of TTRL across various tasks, and highlight TTRL's potential for broader tasks and domains. GitHub: https://github.com/PRIME-RL/TTRL

Summary

AI-Generated Summary

PDF934April 23, 2025