UI-R1: Verbesserung der Aktionsvorhersage von GUI-Agenten durch Reinforcement Learning
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
March 27, 2025
Autoren: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
cs.AI
Zusammenfassung
Der kürzlich vorgestellte DeepSeek-R1 hat das Entstehen von Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) durch Reinforcement Learning (RL) mit regelbasierten Belohnungen demonstriert. Aufbauend auf dieser Idee sind wir die Ersten, die untersuchen, wie regelbasiertes RL die Fähigkeiten zur logischen Schlussfolgerung von multimodalen großen Sprachmodellen (MLLMs) für Aufgaben zur Vorhersage von Aktionen in grafischen Benutzeroberflächen (GUIs) verbessern kann. Zu diesem Zweck haben wir einen kleinen, aber hochwertigen Datensatz mit 136 anspruchsvollen Aufgaben erstellt, die fünf gängige Aktionstypen auf Mobilgeräten umfassen. Wir führen auch eine einheitliche regelbasierte Aktionsbelohnung ein, die eine Modelloptimierung über policy-basierte Algorithmen wie Group Relative Policy Optimization (GRPO) ermöglicht. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes dateneffizientes Modell, UI-R1-3B, erhebliche Verbesserungen bei sowohl domäneninternen (ID) als auch domänenexternen (OOD) Aufgaben erzielt. Insbesondere verbessert sich auf dem ID-Benchmark AndroidControl die Genauigkeit der Aktionstypen um 15 %, während die Genauigkeit der Verankerung um 10,3 % im Vergleich zum Basismodell (d.h. Qwen2.5-VL-3B) steigt. Auf dem OOD-GUI-Verankerungsbenchmark ScreenSpot-Pro übertrifft unser Modell das Basismodell um 6,0 % und erreicht eine wettbewerbsfähige Leistung mit größeren Modellen (z.B. OS-Atlas-7B), die durch überwachte Feinabstimmung (SFT) auf 76K Daten trainiert wurden. Diese Ergebnisse unterstreichen das Potenzial von regelbasiertem Reinforcement Learning, das Verständnis und die Steuerung von GUIs voranzutreiben, und ebnen den Weg für zukünftige Forschung in diesem Bereich.
English
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities
in LLMs through reinforcement learning (RL) with rule-based rewards. Building
on this idea, we are the first to explore how rule-based RL can enhance the
reasoning capabilities of multimodal large language models (MLLMs) for graphic
user interface (GUI) action prediction tasks. To this end, we curate a small
yet high-quality dataset of 136 challenging tasks, encompassing five common
action types on mobile devices. We also introduce a unified rule-based action
reward, enabling model optimization via policy-based algorithms such as Group
Relative Policy Optimization (GRPO). Experimental results demonstrate that our
proposed data-efficient model, UI-R1-3B, achieves substantial improvements on
both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID
benchmark AndroidControl, the action type accuracy improves by 15%, while
grounding accuracy increases by 10.3%, compared with the base model (i.e.
Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model
surpasses the base model by 6.0% and achieves competitive performance with
larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning
(SFT) on 76K data. These results underscore the potential of rule-based
reinforcement learning to advance GUI understanding and control, paving the way
for future research in this domain.Summary
AI-Generated Summary