Der Beginn des GUI-Agenten: Eine Vorläufige Fallstudie mit dem Computer Claude 3.5

The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

November 15, 2024
Autoren: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI

Zusammenfassung

Das kürzlich veröffentlichte Modell Claude 3.5 Computer Use hebt sich als das erste KI-Modell der Spitzenklasse hervor, das Computerbenutzung in der öffentlichen Beta als grafische Benutzeroberfläche (GUI)-Agent anbietet. Als frühe Beta ist seine Leistungsfähigkeit in der realen komplexen Umgebung unbekannt. In dieser Fallstudie zur Erkundung von Claude 3.5 Computer Use kuratieren und organisieren wir eine Sammlung sorgfältig gestalteter Aufgaben, die verschiedene Bereiche und Software abdecken. Beobachtungen aus diesen Fällen zeigen die beispiellose Fähigkeit von Claude 3.5 Computer Use in der Sprache-zu-Desktop-Handlungen. Neben dieser Studie stellen wir ein Agenten-Framework "out-of-the-box" zur Verfügung, um API-basierte GUI-Automatisierungsmodelle mit einfacher Implementierung bereitzustellen. Unsere Fallstudien sollen ein Fundament von Fähigkeiten und Einschränkungen von Claude 3.5 Computer Use mit detaillierten Analysen präsentieren und Fragen zu Planung, Handlung und Kritik aufwerfen, die für zukünftige Verbesserungen berücksichtigt werden müssen. Wir hoffen, dass diese vorläufige Erkundung zukünftige Forschungen in der GUI-Agenten-Community inspirieren wird. Alle Testfälle in dem Papier können über das Projekt ausprobiert werden: https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: https://github.com/showlab/computer_use_ootb.

Summary

AI-Generated Summary

PDF262November 18, 2024