Самостоятельная коррекция с вознаграждением для математического рассуждения
Self-rewarding correction for mathematical reasoning
February 26, 2025
Авторы: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
Аннотация
Мы исследуем крупные языковые модели (LLM) с самовознаграждающим рассуждением, которые способны одновременно генерировать пошаговые рассуждения и оценивать корректность своих выводов во время выполнения — без внешней обратной связи. Такой интегрированный подход позволяет одной модели самостоятельно направлять процесс рассуждения, что обеспечивает вычислительные преимущества для развертывания модели. Мы уделяем особое внимание репрезентативной задаче самокоррекции, где модели автономно обнаруживают ошибки в своих ответах, исправляют выводы и решают, когда завершить итеративные циклы уточнения. Для реализации этого мы предлагаем двухэтапный алгоритмический фреймворк для создания моделей с самовознаграждающим рассуждением, используя только самостоятельно сгенерированные данные. На первом этапе мы применяем последовательный метод отклоняющего сэмплирования для синтеза длинных цепочек рассуждений, которые включают как механизмы самовознаграждения, так и самокоррекции. Тонкая настройка моделей на этих отобранных данных позволяет им изучить паттерны самовознаграждения и самокоррекции. На втором этапе мы дополнительно улучшаем способность моделей оценивать точность ответов и уточнять выводы с помощью обучения с подкреплением на основе правил. Эксперименты с моделями Llama-3 и Qwen-2.5 демонстрируют, что наш подход превосходит внутренние возможности самокоррекции и достигает производительности, сопоставимой с системами, использующими внешние модели вознаграждения.
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary