Sharingan: Estrarre la Sequenza di Azioni dell'Utente dalle Registrazioni Desktop
Sharingan: Extract User Action Sequence from Desktop Recordings
November 13, 2024
Autori: Yanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Abstract
Le registrazioni video delle attività degli utenti, in particolare le registrazioni del desktop, costituiscono una ricca fonte di dati per comprendere i comportamenti degli utenti e automatizzare i processi. Tuttavia, nonostante i progressi nei Modelli Visione-Linguaggio (VLM) e il loro crescente utilizzo nell'analisi video, l'estrazione delle azioni degli utenti dalle registrazioni del desktop rimane un'area poco esplorata. Questo articolo affronta questa lacuna proponendo due nuovi metodi basati su VLM per l'estrazione delle azioni degli utenti: l'Approccio Diretto Basato sui Frame (DF), che inserisce frame campionati direttamente nei VLM, e l'Approccio Differenziale Basato sui Frame (DiffF), che incorpora differenze di frame esplicite rilevate tramite tecniche di computer vision. Valutiamo questi metodi utilizzando un dataset di base autogestito e un benchmark avanzato adattato da lavori precedenti. I nostri risultati mostrano che l'approccio DF raggiunge un'accuratezza del 70% all'80% nell'identificare le azioni degli utenti, con le sequenze di azioni estratte che possono essere riprodotte tramite Automazione dei Processi Robotici. Riscontriamo che, sebbene i VLM mostrino potenziale, l'incorporazione di cambiamenti UI espliciti può degradare le prestazioni, rendendo l'approccio DF più affidabile. Questo lavoro rappresenta la prima applicazione dei VLM per l'estrazione delle sequenze di azioni degli utenti dalle registrazioni del desktop, contribuendo con nuovi metodi, benchmark e spunti per la ricerca futura.
English
Video recordings of user activities, particularly desktop recordings, offer a
rich source of data for understanding user behaviors and automating processes.
However, despite advancements in Vision-Language Models (VLMs) and their
increasing use in video analysis, extracting user actions from desktop
recordings remains an underexplored area. This paper addresses this gap by
proposing two novel VLM-based methods for user action extraction: the Direct
Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and
the Differential Frame-Based Approach (DiffF), which incorporates explicit
frame differences detected via computer vision techniques. We evaluate these
methods using a basic self-curated dataset and an advanced benchmark adapted
from prior work. Our results show that the DF approach achieves an accuracy of
70% to 80% in identifying user actions, with the extracted action sequences
being re-playable though Robotic Process Automation. We find that while VLMs
show potential, incorporating explicit UI changes can degrade performance,
making the DF approach more reliable. This work represents the first
application of VLMs for extracting user action sequences from desktop
recordings, contributing new methods, benchmarks, and insights for future
research.Summary
AI-Generated Summary