Sharingan: Extrahieren von Benutzeraktionssequenzen aus Desktop-Aufnahmen
Sharingan: Extract User Action Sequence from Desktop Recordings
November 13, 2024
Autoren: Yanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Zusammenfassung
Videoaufnahmen von Benutzeraktivitäten, insbesondere Desktop-Aufnahmen, bieten eine reichhaltige Datenquelle zur Analyse von Benutzerverhalten und Automatisierung von Prozessen. Trotz Fortschritten bei Vision-Language-Modellen (VLMs) und ihrer zunehmenden Verwendung in der Videoanalyse bleibt die Extraktion von Benutzeraktionen aus Desktop-Aufnahmen ein wenig erforschtes Gebiet. Dieser Artikel befasst sich mit dieser Lücke, indem er zwei neuartige VLM-basierte Methoden zur Extraktion von Benutzeraktionen vorschlägt: den direkten framebasierten Ansatz (DF), der ausgewählte Frames direkt in VLMs eingibt, und den differentiellen framebasierten Ansatz (DiffF), der explizite Frame-Unterschiede einbezieht, die mithilfe von Computer-Vision-Techniken erkannt werden. Wir evaluieren diese Methoden anhand eines einfachen selbst erstellten Datensatzes und eines fortgeschrittenen Benchmarks, der aus früheren Arbeiten übernommen wurde. Unsere Ergebnisse zeigen, dass der DF-Ansatz eine Genauigkeit von 70% bis 80% bei der Identifizierung von Benutzeraktionen erreicht, wobei die extrahierten Aktionssequenzen durch Robotic Process Automation reproduzierbar sind. Wir stellen fest, dass VLMs zwar Potenzial zeigen, die Einbeziehung expliziter UI-Änderungen jedoch die Leistung beeinträchtigen kann, wodurch der DF-Ansatz zuverlässiger wird. Diese Arbeit stellt die erste Anwendung von VLMs zur Extraktion von Benutzeraktionssequenzen aus Desktop-Aufnahmen dar und trägt neue Methoden, Benchmarks und Erkenntnisse für zukünftige Forschung bei.
English
Video recordings of user activities, particularly desktop recordings, offer a
rich source of data for understanding user behaviors and automating processes.
However, despite advancements in Vision-Language Models (VLMs) and their
increasing use in video analysis, extracting user actions from desktop
recordings remains an underexplored area. This paper addresses this gap by
proposing two novel VLM-based methods for user action extraction: the Direct
Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and
the Differential Frame-Based Approach (DiffF), which incorporates explicit
frame differences detected via computer vision techniques. We evaluate these
methods using a basic self-curated dataset and an advanced benchmark adapted
from prior work. Our results show that the DF approach achieves an accuracy of
70% to 80% in identifying user actions, with the extracted action sequences
being re-playable though Robotic Process Automation. We find that while VLMs
show potential, incorporating explicit UI changes can degrade performance,
making the DF approach more reliable. This work represents the first
application of VLMs for extracting user action sequences from desktop
recordings, contributing new methods, benchmarks, and insights for future
research.Summary
AI-Generated Summary