L'Alba dell'Agente GUI: Uno Studio di Caso Preliminare con il Computer Claude 3.5

The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

November 15, 2024
Autori: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI

Abstract

Il modello recentemente rilasciato, Claude 3.5 Computer Use, si distingue come il primo modello AI di frontiera a offrire l'uso del computer in versione beta pubblica come agente dell'interfaccia utente grafica (GUI). Essendo ancora in fase beta iniziale, la sua capacità nell'ambiente complesso del mondo reale rimane sconosciuta. In questo studio di caso per esplorare Claude 3.5 Computer Use, curiamo e organizziamo una collezione di compiti attentamente progettati che spaziano in una varietà di settori e software. Le osservazioni da questi casi dimostrano l'abilità senza precedenti di Claude 3.5 Computer Use nell'esecuzione di azioni di linguaggio a desktop end-to-end. Insieme a questo studio, forniamo un framework di agente pronto all'uso per implementare modelli di automazione GUI basati su API con facilità. I nostri studi di caso mirano a mostrare le capacità e i limiti di Claude 3.5 Computer Use con analisi dettagliate e sollevare questioni su pianificazione, azione e critica, che devono essere considerate per miglioramenti futuri. Speriamo che questa esplorazione preliminare ispiri futuri studi sulla comunità degli agenti GUI. Tutti i casi di test nel paper possono essere provati attraverso il progetto: https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: https://github.com/showlab/computer_use_ootb.

Summary

AI-Generated Summary

PDF272November 18, 2024