UI-R1: Miglioramento della Previsione delle Azioni degli Agenti GUI mediante Apprendimento per Rinforzo
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Autori: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Abstract
Il recente DeepSeek-R1 ha dimostrato l'emergere di capacità di ragionamento nei modelli linguistici di grandi dimensioni (LLM) attraverso l'apprendimento per rinforzo (RL) con ricompense basate su regole. Basandoci su questa idea, siamo i primi a esplorare come l'RL basato su regole possa potenziare le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) per i compiti di previsione delle azioni su interfacce grafiche utente (GUI). A tal fine, abbiamo curato un piccolo ma di alta qualità dataset di 136 compiti impegnativi, che coprono cinque tipi di azioni comuni sui dispositivi mobili. Introduciamo inoltre una ricompensa unificata basata su regole per le azioni, che consente l'ottimizzazione del modello tramite algoritmi basati su politiche come il Group Relative Policy Optimization (GRPO). I risultati sperimentali dimostrano che il nostro modello proposto, efficiente in termini di dati, UI-R1-3B, ottiene miglioramenti sostanziali sia sui compiti in dominio (ID) che fuori dominio (OOD). In particolare, sul benchmark ID AndroidControl, l'accuratezza del tipo di azione migliora del 15%, mentre l'accuratezza di grounding aumenta del 10,3%, rispetto al modello di base (ovvero Qwen2.5-VL-3B). Sul benchmark OOD di grounding GUI ScreenSpot-Pro, il nostro modello supera il modello di base del 6,0% e raggiunge prestazioni competitive con modelli più grandi (ad esempio, OS-Atlas-7B), che sono addestrati tramite fine-tuning supervisionato (SFT) su 76K dati. Questi risultati sottolineano il potenziale dell'apprendimento per rinforzo basato su regole per avanzare la comprensione e il controllo delle GUI, aprendo la strada a future ricerche in questo dominio.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary