Sharingan : Extraction de la séquence d'actions de l'utilisateur à partir d'enregistrements de bureau

Sharingan: Extract User Action Sequence from Desktop Recordings

November 13, 2024
Auteurs: Yanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Résumé

Les enregistrements vidéo des activités des utilisateurs, en particulier les enregistrements de bureau, offrent une source riche de données pour comprendre les comportements des utilisateurs et automatiser les processus. Cependant, malgré les avancées dans les modèles Vision-Language (VLM) et leur utilisation croissante dans l'analyse vidéo, l'extraction des actions des utilisateurs à partir des enregistrements de bureau reste un domaine peu exploré. Cet article comble cette lacune en proposant deux nouvelles méthodes basées sur les VLM pour l'extraction des actions des utilisateurs : l'Approche Directe Basée sur les Images (DF), qui introduit directement des images échantillonnées dans les VLM, et l'Approche Différentielle Basée sur les Images (DiffF), qui intègre des différences d'images explicites détectées via des techniques de vision par ordinateur. Nous évaluons ces méthodes en utilisant un ensemble de données auto-créé de base et un benchmark avancé adapté de travaux antérieurs. Nos résultats montrent que l'approche DF atteint une précision de 70% à 80% dans l'identification des actions des utilisateurs, les séquences d'actions extraites étant rejouables via l'automatisation des processus robotiques. Nous constatons que bien que les VLM montrent un potentiel, l'incorporation de changements d'interface utilisateur explicites peut dégrader les performances, rendant l'approche DF plus fiable. Ce travail représente la première application des VLM pour l'extraction des séquences d'actions des utilisateurs à partir d'enregistrements de bureau, apportant de nouvelles méthodes, benchmarks et perspectives pour la recherche future.
English
Video recordings of user activities, particularly desktop recordings, offer a rich source of data for understanding user behaviors and automating processes. However, despite advancements in Vision-Language Models (VLMs) and their increasing use in video analysis, extracting user actions from desktop recordings remains an underexplored area. This paper addresses this gap by proposing two novel VLM-based methods for user action extraction: the Direct Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and the Differential Frame-Based Approach (DiffF), which incorporates explicit frame differences detected via computer vision techniques. We evaluate these methods using a basic self-curated dataset and an advanced benchmark adapted from prior work. Our results show that the DF approach achieves an accuracy of 70% to 80% in identifying user actions, with the extracted action sequences being re-playable though Robotic Process Automation. We find that while VLMs show potential, incorporating explicit UI changes can degrade performance, making the DF approach more reliable. This work represents the first application of VLMs for extracting user action sequences from desktop recordings, contributing new methods, benchmarks, and insights for future research.

Summary

AI-Generated Summary

PDF92November 15, 2024