Search-R1: Training von LLMs zum logischen Denken und zur Nutzung von Suchmaschinen mit Verstärkungslernen
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
March 12, 2025
Autoren: Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
cs.AI
Zusammenfassung
Die effiziente Beschaffung von externem Wissen und aktuellen Informationen ist entscheidend für effektives Schlussfolgern und die Textgenerierung in großen Sprachmodellen (LLMs). Ansätze zur Retrieval-Erweiterung und Werkzeugnutzung, bei denen eine Suchmaschine als Werkzeug behandelt wird, mangelt es an komplexer Mehrfachabruf-Flexibilität oder sie erfordern umfangreiche überwachte Daten. Das Anstoßen fortschrittlicher LLMs mit Schlussfolgerungsfähigkeiten während der Inferenz zur Nutzung von Suchmaschinen ist nicht optimal, da das LLM nicht lernt, wie es optimal mit der Suchmaschine interagiert. Dieses Papier stellt Search-R1 vor, eine Erweiterung des DeepSeek-R1-Modells, bei dem das LLM – ausschließlich durch Reinforcement Learning (RL) – lernt, während des schrittweisen Schlussfolgerns mit Echtzeit-Retrieval autonom (mehrere) Suchanfragen zu generieren. Search-R1 optimiert LLM-Rollouts mit Mehrfachabruf-Interaktionen, nutzt abgerufene Token-Maskierung für stabiles RL-Training und eine einfache ergebnisbasierte Belohnungsfunktion. Experimente auf sieben Frage-Antwort-Datensätzen zeigen, dass Search-R1 die Leistung um 26 % (Qwen2.5-7B), 21 % (Qwen2.5-3B) und 10 % (LLaMA3.2-3B) gegenüber den SOTA-Baselines verbessert. Dieses Papier liefert weiterhin empirische Einblicke in RL-Optimierungsmethoden, LLM-Auswahl und die Dynamik der Antwortlänge bei retrieval-unterstütztem Schlussfolgern. Der Code und die Modell-Checkpoints sind unter https://github.com/PeterGriffinJin/Search-R1 verfügbar.
English
Efficiently acquiring external knowledge and up-to-date information is
essential for effective reasoning and text generation in large language models
(LLMs). Retrieval augmentation and tool-use training approaches where a search
engine is treated as a tool lack complex multi-turn retrieval flexibility or
require large-scale supervised data. Prompting advanced LLMs with reasoning
capabilities during inference to use search engines is not optimal, since the
LLM does not learn how to optimally interact with the search engine. This paper
introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM
learns -- solely through reinforcement learning (RL) -- to autonomously
generate (multiple) search queries during step-by-step reasoning with real-time
retrieval. Search-R1 optimizes LLM rollouts with multi-turn search
interactions, leveraging retrieved token masking for stable RL training and a
simple outcome-based reward function. Experiments on seven question-answering
datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21%
(Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further
provides empirical insights into RL optimization methods, LLM choices, and
response length dynamics in retrieval-augmented reasoning. The code and model
checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.Summary
AI-Generated Summary