Sharingan: Extrahieren von Benutzeraktionssequenzen aus Desktop-Aufnahmen

Zusammenfassung

Videoaufnahmen von Benutzeraktivitäten, insbesondere Desktop-Aufnahmen, bieten eine reichhaltige Datenquelle zur Analyse von Benutzerverhalten und Automatisierung von Prozessen. Trotz Fortschritten bei Vision-Language-Modellen (VLMs) und ihrer zunehmenden Verwendung in der Videoanalyse bleibt die Extraktion von Benutzeraktionen aus Desktop-Aufnahmen ein wenig erforschtes Gebiet. Dieser Artikel befasst sich mit dieser Lücke, indem er zwei neuartige VLM-basierte Methoden zur Extraktion von Benutzeraktionen vorschlägt: den direkten framebasierten Ansatz (DF), der ausgewählte Frames direkt in VLMs eingibt, und den differentiellen framebasierten Ansatz (DiffF), der explizite Frame-Unterschiede einbezieht, die mithilfe von Computer-Vision-Techniken erkannt werden. Wir evaluieren diese Methoden anhand eines einfachen selbst erstellten Datensatzes und eines fortgeschrittenen Benchmarks, der aus früheren Arbeiten übernommen wurde. Unsere Ergebnisse zeigen, dass der DF-Ansatz eine Genauigkeit von 70% bis 80% bei der Identifizierung von Benutzeraktionen erreicht, wobei die extrahierten Aktionssequenzen durch Robotic Process Automation reproduzierbar sind. Wir stellen fest, dass VLMs zwar Potenzial zeigen, die Einbeziehung expliziter UI-Änderungen jedoch die Leistung beeinträchtigen kann, wodurch der DF-Ansatz zuverlässiger wird. Diese Arbeit stellt die erste Anwendung von VLMs zur Extraktion von Benutzeraktionssequenzen aus Desktop-Aufnahmen dar und trägt neue Methoden, Benchmarks und Erkenntnisse für zukünftige Forschung bei.

English

Video recordings of user activities, particularly desktop recordings, offer a rich source of data for understanding user behaviors and automating processes. However, despite advancements in Vision-Language Models (VLMs) and their increasing use in video analysis, extracting user actions from desktop recordings remains an underexplored area. This paper addresses this gap by proposing two novel VLM-based methods for user action extraction: the Direct Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and the Differential Frame-Based Approach (DiffF), which incorporates explicit frame differences detected via computer vision techniques. We evaluate these methods using a basic self-curated dataset and an advanced benchmark adapted from prior work. Our results show that the DF approach achieves an accuracy of 70% to 80% in identifying user actions, with the extracted action sequences being re-playable though Robotic Process Automation. We find that while VLMs show potential, incorporating explicit UI changes can degrade performance, making the DF approach more reliable. This work represents the first application of VLMs for extracting user action sequences from desktop recordings, contributing new methods, benchmarks, and insights for future research.

Sharingan: Extrahieren von Benutzeraktionssequenzen aus Desktop-Aufnahmen

Sharingan: Extract User Action Sequence from Desktop Recordings

Zusammenfassung

Support