L'Aube de l'Agent GUI : Une Étude de Cas Préliminaire avec l'Ordinateur Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
November 15, 2024
Auteurs: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI
Résumé
Le modèle récemment publié, Claude 3.5 Computer Use, se distingue en tant que premier modèle d'IA de pointe à offrir l'utilisation d'un ordinateur en version bêta publique sous la forme d'un agent d'interface graphique (GUI). En tant que version bêta précoce, sa capacité dans un environnement complexe du monde réel reste inconnue. Dans cette étude de cas visant à explorer Claude 3.5 Computer Use, nous sélectionnons et organisons une collection de tâches soigneusement conçues couvrant divers domaines et logiciels. Les observations de ces cas démontrent la capacité sans précédent de Claude 3.5 Computer Use dans l'exécution d'actions de bout en bout, de la langue aux actions sur le bureau. En parallèle de cette étude, nous fournissons un cadre d'agent prêt à l'emploi pour le déploiement de modèles d'automatisation GUI basés sur des API avec une implémentation facile. Nos études de cas visent à mettre en avant les capacités et limites de Claude 3.5 Computer Use avec des analyses détaillées et à soulever des questions sur la planification, l'action et la critique, qui doivent être prises en compte pour des améliorations futures. Nous espérons que cette exploration préliminaire inspirera de futures recherches au sein de la communauté des agents GUI. Tous les cas de test décrits dans l'article peuvent être essayés via le projet : https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first
frontier AI model to offer computer use in public beta as a graphical user
interface (GUI) agent. As an early beta, its capability in the real-world
complex environment remains unknown. In this case study to explore Claude 3.5
Computer Use, we curate and organize a collection of carefully designed tasks
spanning a variety of domains and software. Observations from these cases
demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end
language to desktop actions. Along with this study, we provide an
out-of-the-box agent framework for deploying API-based GUI automation models
with easy implementation. Our case studies aim to showcase a groundwork of
capabilities and limitations of Claude 3.5 Computer Use with detailed analyses
and bring to the fore questions about planning, action, and critic, which must
be considered for future improvement. We hope this preliminary exploration will
inspire future research into the GUI agent community. All the test cases in the
paper can be tried through the project:
https://github.com/showlab/computer_use_ootb.Summary
AI-Generated Summary