VEM: Исследование без среды для обучения агента графического интерфейса с использованием модели ценности среды
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Авторы: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Аннотация
Обучение моделей "Видение-Язык" (VLMs) для агентов, взаимодействующих с графическими пользовательскими интерфейсами (GUI), с использованием обучения с подкреплением (RL) сталкивается с серьезными проблемами: RL, основанный на взаимодействии со средой, требует дорогостоящих взаимодействий, в то время как методы, не зависящие от среды, испытывают трудности с распределительным сдвигом и обобщением наград. Мы предлагаем RL-фреймворк, не зависящий от среды, который разделяет оценку ценности и оптимизацию политики, используя предобученную Модель Ценности Среды (VEM). VEM предсказывает значения состояний и действий напрямую на основе оффлайн-данных, извлекая априорные знания, подобные человеческим, о результатах взаимодействия с GUI, без необходимости предсказания следующего состояния или обратной связи от среды. Это позволяет избежать накопления ошибок и повышает устойчивость к изменениям интерфейса, фокусируясь на семантическом анализе (например, "Продвигает ли это действие цель пользователя?"). Фреймворк работает в два этапа: (1) предобучение VEM для оценки долгосрочной полезности действий и (2) направление исследования политики с использованием замороженных сигналов VEM, что позволяет автоматизировать GUI независимо от его структуры. Оценка на бенчмарках Android-in-the-Wild показывает, что VEM достигает наилучших результатов как в оффлайн, так и в онлайн-режимах, значительно превосходя методы, не зависящие от среды, и сопоставим с подходами, основанными на взаимодействии со средой, без затрат на взаимодействие. Важно отметить, что VEM демонстрирует, что семантически осознанная оценка ценности может достичь сопоставимой производительности с методами, обученными в онлайн-режиме.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary