Когнитивные модели поведения, способствующие самообучению систем рассуждений, или Четыре привычки высокоэффективных STaR-систем

Аннотация

Вывод на этапе тестирования стал мощной парадигмой, позволяющей языковым моделям «думать» дольше и тщательнее о сложных задачах, подобно опытным экспертам-людям. Хотя обучение с подкреплением (RL) может способствовать самосовершенствованию языковых моделей в задачах с проверяемыми результатами, некоторые модели демонстрируют значительный прогресс, тогда как другие быстро достигают плато. Например, мы обнаружили, что Qwen-2.5-3B значительно превосходит Llama-3.2-3B при одинаковом обучении с подкреплением в игре Countdown. Это расхождение поднимает важный вопрос: какие внутренние свойства обеспечивают эффективное самосовершенствование? Мы представляем фреймворк для изучения этого вопроса, анализируя четыре ключевых когнитивных поведения — проверку, возврат к предыдущим шагам, постановку подцелей и обратный вывод, — которые используют как эксперты-люди, так и успешные языковые модели. Наше исследование показывает, что Qwen естественным образом демонстрирует эти рассуждения, тогда как Llama изначально их лишена. В систематических экспериментах с контролируемыми наборами данных мы обнаружили, что предварительное обучение Llama на примерах, содержащих эти рассуждения, позволяет добиться значительного улучшения в ходе RL, сопоставимого или превосходящего результаты Qwen. Важно отметить, что наличие рассуждений, а не правильность ответов, оказывается критическим фактором — модели, обученные на неправильных решениях, содержащих правильные шаблоны рассуждений, достигают сопоставимой производительности с моделями, обученными на правильных решениях. Наконец, использование продолженного предобучения на данных OpenWebMath, отфильтрованных для усиления рассуждений, позволяет модели Llama соответствовать траектории самосовершенствования Qwen. Наши результаты устанавливают фундаментальную связь между начальными рассуждениями и способностью к улучшению, объясняя, почему одни языковые модели эффективно используют дополнительные вычисления, тогда как другие достигают плато.

English

Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.

Когнитивные модели поведения, способствующие самообучению систем рассуждений, или Четыре привычки высокоэффективных STaR-систем

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Аннотация

Summary

Support