START: Самообучающийся рассуждающий агент с инструментами
START: Self-taught Reasoner with Tools
March 6, 2025
Авторы: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI
Аннотация
Крупные модели рассуждений (LRMs), такие как OpenAI-o1 и DeepSeek-R1, продемонстрировали впечатляющие способности в решении сложных задач рассуждений благодаря использованию длинных цепочек мыслей (Chain-of-thought, CoT). Однако эти модели часто страдают от галлюцинаций и неэффективности из-за их исключительной зависимости от внутренних процессов рассуждений. В данной статье мы представляем START (Self-Taught Reasoner with Tools) — новую модель рассуждений с длинной цепочкой мыслей, интегрированную с инструментами, которая значительно улучшает способности к рассуждениям за счет использования внешних инструментов. Благодаря выполнению кода, START способна выполнять сложные вычисления, самопроверку, исследование различных методов и самодиагностику, тем самым устраняя ограничения LRMs. Основное новшество START заключается в её самообучающейся структуре, которая включает две ключевые техники: 1) Hint-infer: Мы показываем, что вставка искусственно разработанных подсказок (например, «Подожди, возможно, использование Python здесь — хорошая идея») в процессе вывода LRM эффективно стимулирует её способность использовать внешние инструменты без необходимости в демонстрационных данных. Hint-infer также может служить простым и эффективным методом последовательного масштабирования на этапе тестирования; 2) Тонкая настройка с использованием выборки с отклонением подсказок (Hint-RFT): Hint-RFT объединяет Hint-infer и RFT, оценивая, фильтруя и модифицируя траектории рассуждений с вызовом инструментов, сгенерированные LRM через Hint-infer, с последующей тонкой настройкой LRM. С помощью этой структуры мы провели тонкую настройку модели QwQ-32B, чтобы получить START. На тестах уровня PhD по научным вопросам (GPQA), соревновательных математических тестах (AMC23, AIME24, AIME25) и соревновательном тесте по программированию (LiveCodeBench) START достигает точности 63,6%, 95,0%, 66,7%, 47,1% и 47,3% соответственно. Она значительно превосходит базовую модель QwQ-32B и демонстрирует результаты, сопоставимые с передовой открытой моделью R1-Distill-Qwen-32B и проприетарной моделью o1-Preview.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have
demonstrated remarkable capabilities in complex reasoning tasks through the
utilization of long Chain-of-thought (CoT). However, these models often suffer
from hallucinations and inefficiencies due to their reliance solely on internal
reasoning processes. In this paper, we introduce START (Self-Taught Reasoner
with Tools), a novel tool-integrated long CoT reasoning LLM that significantly
enhances reasoning capabilities by leveraging external tools. Through code
execution, START is capable of performing complex computations, self-checking,
exploring diverse methods, and self-debugging, thereby addressing the
limitations of LRMs. The core innovation of START lies in its self-learning
framework, which comprises two key techniques: 1) Hint-infer: We demonstrate
that inserting artificially designed hints (e.g., ``Wait, maybe using Python
here is a good idea.'') during the inference process of a LRM effectively
stimulates its ability to utilize external tools without the need for any
demonstration data. Hint-infer can also serve as a simple and effective
sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning
(Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and
modifying the reasoning trajectories with tool invocation generated by a LRM
via Hint-infer, followed by fine-tuning the LRM. Through this framework, we
have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA
(GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the
competition-level code benchmark (LiveCodeBench), START achieves accuracy rates
of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly
outperforms the base QwQ-32B and achieves performance comparable to the
state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary
model o1-Preview.Summary
AI-Generated Summary