ChatPaper.aiChatPaper

Языковые модели способны самостоятельно совершенствовать оценку состояний для улучшения поиска.

Language Models can Self-Improve at State-Value Estimation for Better Search

March 4, 2025
Авторы: Ethan Mendes, Alan Ritter
cs.AI

Аннотация

Сбор данных о вознаграждениях за выполнение задач или демонстраций, выполненных людьми, для многошаговых задач, требующих рассуждений, часто оказывается слишком затратным и трудоемким, особенно в интерактивных областях, таких как веб-задачи. Чтобы устранить это узкое место, мы представляем метод самообучаемого прогнозирования (self-taught lookahead) — самообучаемый подход, который использует динамику переходов между состояниями для обучения модели оценки, способной эффективно направлять поиск, управляемый языковой моделью. Мы обнаружили, что модели оценки среднего размера (8 миллиардов параметров) с открытыми весами, улучшенные с помощью самообучаемого прогнозирования, могут соответствовать производительности использования передовой языковой модели, такой как GPT-4, в качестве модели оценки. Более того, мы выяснили, что самообучаемое прогнозирование повышает производительность на 20% и снижает затраты в 37 раз по сравнению с предыдущими методами поиска по дереву на основе языковых моделей, не требуя при этом данных о вознаграждениях за выполнение задач.
English
Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

Summary

AI-Generated Summary

PDF72March 5, 2025