L'Alba dell'Agente GUI: Uno Studio di Caso Preliminare con il Computer Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
November 15, 2024
Autori: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI
Abstract
Il modello recentemente rilasciato, Claude 3.5 Computer Use, si distingue come il primo modello AI di frontiera a offrire l'uso del computer in versione beta pubblica come agente dell'interfaccia utente grafica (GUI). Essendo ancora in fase beta iniziale, la sua capacità nell'ambiente complesso del mondo reale rimane sconosciuta. In questo studio di caso per esplorare Claude 3.5 Computer Use, curiamo e organizziamo una collezione di compiti attentamente progettati che spaziano in una varietà di settori e software. Le osservazioni da questi casi dimostrano l'abilità senza precedenti di Claude 3.5 Computer Use nell'esecuzione di azioni di linguaggio a desktop end-to-end. Insieme a questo studio, forniamo un framework di agente pronto all'uso per implementare modelli di automazione GUI basati su API con facilità. I nostri studi di caso mirano a mostrare le capacità e i limiti di Claude 3.5 Computer Use con analisi dettagliate e sollevare questioni su pianificazione, azione e critica, che devono essere considerate per miglioramenti futuri. Speriamo che questa esplorazione preliminare ispiri futuri studi sulla comunità degli agenti GUI. Tutti i casi di test nel paper possono essere provati attraverso il progetto: https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first
frontier AI model to offer computer use in public beta as a graphical user
interface (GUI) agent. As an early beta, its capability in the real-world
complex environment remains unknown. In this case study to explore Claude 3.5
Computer Use, we curate and organize a collection of carefully designed tasks
spanning a variety of domains and software. Observations from these cases
demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end
language to desktop actions. Along with this study, we provide an
out-of-the-box agent framework for deploying API-based GUI automation models
with easy implementation. Our case studies aim to showcase a groundwork of
capabilities and limitations of Claude 3.5 Computer Use with detailed analyses
and bring to the fore questions about planning, action, and critic, which must
be considered for future improvement. We hope this preliminary exploration will
inspire future research into the GUI agent community. All the test cases in the
paper can be tried through the project:
https://github.com/showlab/computer_use_ootb.Summary
AI-Generated Summary