L'Aube de l'Agent GUI : Une Étude de Cas Préliminaire avec l'Ordinateur Claude 3.5

The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

November 15, 2024
Auteurs: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI

Résumé

Le modèle récemment publié, Claude 3.5 Computer Use, se distingue en tant que premier modèle d'IA de pointe à offrir l'utilisation d'un ordinateur en version bêta publique sous la forme d'un agent d'interface graphique (GUI). En tant que version bêta précoce, sa capacité dans un environnement complexe du monde réel reste inconnue. Dans cette étude de cas visant à explorer Claude 3.5 Computer Use, nous sélectionnons et organisons une collection de tâches soigneusement conçues couvrant divers domaines et logiciels. Les observations de ces cas démontrent la capacité sans précédent de Claude 3.5 Computer Use dans l'exécution d'actions de bout en bout, de la langue aux actions sur le bureau. En parallèle de cette étude, nous fournissons un cadre d'agent prêt à l'emploi pour le déploiement de modèles d'automatisation GUI basés sur des API avec une implémentation facile. Nos études de cas visent à mettre en avant les capacités et limites de Claude 3.5 Computer Use avec des analyses détaillées et à soulever des questions sur la planification, l'action et la critique, qui doivent être prises en compte pour des améliorations futures. Nous espérons que cette exploration préliminaire inspirera de futures recherches au sein de la communauté des agents GUI. Tous les cas de test décrits dans l'article peuvent être essayés via le projet : https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: https://github.com/showlab/computer_use_ootb.

Summary

AI-Generated Summary

PDF262November 18, 2024