VEM: Исследование без среды для обучения агента графического интерфейса с использованием модели ценности среды

Аннотация

Обучение моделей "Видение-Язык" (VLMs) для агентов, взаимодействующих с графическими пользовательскими интерфейсами (GUI), с использованием обучения с подкреплением (RL) сталкивается с серьезными проблемами: RL, основанный на взаимодействии со средой, требует дорогостоящих взаимодействий, в то время как методы, не зависящие от среды, испытывают трудности с распределительным сдвигом и обобщением наград. Мы предлагаем RL-фреймворк, не зависящий от среды, который разделяет оценку ценности и оптимизацию политики, используя предобученную Модель Ценности Среды (VEM). VEM предсказывает значения состояний и действий напрямую на основе оффлайн-данных, извлекая априорные знания, подобные человеческим, о результатах взаимодействия с GUI, без необходимости предсказания следующего состояния или обратной связи от среды. Это позволяет избежать накопления ошибок и повышает устойчивость к изменениям интерфейса, фокусируясь на семантическом анализе (например, "Продвигает ли это действие цель пользователя?"). Фреймворк работает в два этапа: (1) предобучение VEM для оценки долгосрочной полезности действий и (2) направление исследования политики с использованием замороженных сигналов VEM, что позволяет автоматизировать GUI независимо от его структуры. Оценка на бенчмарках Android-in-the-Wild показывает, что VEM достигает наилучших результатов как в оффлайн, так и в онлайн-режимах, значительно превосходя методы, не зависящие от среды, и сопоставим с подходами, основанными на взаимодействии со средой, без затрат на взаимодействие. Важно отметить, что VEM демонстрирует, что семантически осознанная оценка ценности может достичь сопоставимой производительности с методами, обученными в онлайн-режиме.

English

Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.

VEM: Исследование без среды для обучения агента графического интерфейса с использованием модели ценности среды

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Аннотация

Summary

Support