Der Beginn des GUI-Agenten: Eine Vorläufige Fallstudie mit dem Computer Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
November 15, 2024
Autoren: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI
Zusammenfassung
Das kürzlich veröffentlichte Modell Claude 3.5 Computer Use hebt sich als das erste KI-Modell der Spitzenklasse hervor, das Computerbenutzung in der öffentlichen Beta als grafische Benutzeroberfläche (GUI)-Agent anbietet. Als frühe Beta ist seine Leistungsfähigkeit in der realen komplexen Umgebung unbekannt. In dieser Fallstudie zur Erkundung von Claude 3.5 Computer Use kuratieren und organisieren wir eine Sammlung sorgfältig gestalteter Aufgaben, die verschiedene Bereiche und Software abdecken. Beobachtungen aus diesen Fällen zeigen die beispiellose Fähigkeit von Claude 3.5 Computer Use in der Sprache-zu-Desktop-Handlungen. Neben dieser Studie stellen wir ein Agenten-Framework "out-of-the-box" zur Verfügung, um API-basierte GUI-Automatisierungsmodelle mit einfacher Implementierung bereitzustellen. Unsere Fallstudien sollen ein Fundament von Fähigkeiten und Einschränkungen von Claude 3.5 Computer Use mit detaillierten Analysen präsentieren und Fragen zu Planung, Handlung und Kritik aufwerfen, die für zukünftige Verbesserungen berücksichtigt werden müssen. Wir hoffen, dass diese vorläufige Erkundung zukünftige Forschungen in der GUI-Agenten-Community inspirieren wird. Alle Testfälle in dem Papier können über das Projekt ausprobiert werden: https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first
frontier AI model to offer computer use in public beta as a graphical user
interface (GUI) agent. As an early beta, its capability in the real-world
complex environment remains unknown. In this case study to explore Claude 3.5
Computer Use, we curate and organize a collection of carefully designed tasks
spanning a variety of domains and software. Observations from these cases
demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end
language to desktop actions. Along with this study, we provide an
out-of-the-box agent framework for deploying API-based GUI automation models
with easy implementation. Our case studies aim to showcase a groundwork of
capabilities and limitations of Claude 3.5 Computer Use with detailed analyses
and bring to the fore questions about planning, action, and critic, which must
be considered for future improvement. We hope this preliminary exploration will
inspire future research into the GUI agent community. All the test cases in the
paper can be tried through the project:
https://github.com/showlab/computer_use_ootb.Summary
AI-Generated Summary