VAPO: Apprendimento per Rinforzo Efficiente e Affidabile per Compiti di Ragionamento Avanzato

Abstract

Presentiamo VAPO, un framework innovativo di Ottimizzazione Prossimale delle Politiche Aumentata basata su Valori, specificamente progettato per modelli di ragionamento all'interno del paradigma basato su valori. Testato sul dataset AIME 2024, VAPO, costruito sul modello pre-addestrato Qwen 32B, raggiunge un punteggio all'avanguardia di 60.4. In un confronto diretto in condizioni sperimentali identiche, VAPO supera i risultati precedentemente riportati di DeepSeek-R1-Zero-Qwen-32B e DAPO di oltre 10 punti. Il processo di addestramento di VAPO si distingue per la sua stabilità ed efficienza, raggiungendo prestazioni all'avanguardia in appena 5.000 passi. Inoltre, in più esecuzioni indipendenti, non si verificano crash di addestramento, sottolineandone l'affidabilità. Questa ricerca approfondisce il ragionamento a catena di pensiero lunga (long-CoT) utilizzando un framework di apprendimento per rinforzo basato su valori. Identifichiamo tre sfide principali che affliggono i metodi basati su valori: il bias del modello di valore, la presenza di lunghezze di sequenza eterogenee e la scarsità di segnali di ricompensa. Attraverso una progettazione sistematica, VAPO offre una soluzione integrata che allevia efficacemente queste sfide, consentendo prestazioni migliorate nei compiti di ragionamento long-CoT.

English

We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of 60.4. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.

VAPO: Apprendimento per Rinforzo Efficiente e Affidabile per Compiti di Ragionamento Avanzato

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Abstract

Summary

Support

Support