Языковые модели способны самостоятельно совершенствовать оценку состояний для улучшения поиска.
Language Models can Self-Improve at State-Value Estimation for Better Search
March 4, 2025
Авторы: Ethan Mendes, Alan Ritter
cs.AI
Аннотация
Сбор данных о вознаграждениях за выполнение задач или демонстраций, выполненных людьми, для многошаговых задач, требующих рассуждений, часто оказывается слишком затратным и трудоемким, особенно в интерактивных областях, таких как веб-задачи. Чтобы устранить это узкое место, мы представляем метод самообучаемого прогнозирования (self-taught lookahead) — самообучаемый подход, который использует динамику переходов между состояниями для обучения модели оценки, способной эффективно направлять поиск, управляемый языковой моделью. Мы обнаружили, что модели оценки среднего размера (8 миллиардов параметров) с открытыми весами, улучшенные с помощью самообучаемого прогнозирования, могут соответствовать производительности использования передовой языковой модели, такой как GPT-4, в качестве модели оценки. Более того, мы выяснили, что самообучаемое прогнозирование повышает производительность на 20% и снижает затраты в 37 раз по сравнению с предыдущими методами поиска по дереву на основе языковых моделей, не требуя при этом данных о вознаграждениях за выполнение задач.
English
Collecting ground truth task completion rewards or human demonstrations for
multi-step reasoning tasks is often cost-prohibitive and time-consuming,
especially in interactive domains like web tasks. To address this bottleneck,
we present self-taught lookahead, a self-supervised method that leverages
state-transition dynamics to train a value model capable of effectively guiding
language model-controlled search. We find that moderately sized (8 billion
parameters) open-weight value models improved with self-taught lookahead can
match the performance of using a frontier LLM such as gpt-4o as the value
model. Furthermore, we find that self-taught lookahead improves performance by
20% while reducing costs 37x compared to previous LLM-based tree search,
without relying on ground truth rewards.Summary
AI-Generated Summary