Sharingan: 데스크톱 녹화물에서 사용자 작업 순서 추출
Sharingan: Extract User Action Sequence from Desktop Recordings
November 13, 2024
저자: Yanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
초록
사용자 활동의 비디오 녹화, 특히 데스크톱 녹화는 사용자 행동을 이해하고 프로세스를 자동화하기 위한 데이터의 풍부한 원천을 제공합니다. 그러나 시각-언어 모델(Vision-Language Models, VLMs)의 발전과 비디오 분석에서의 증가하는 활용에도 불구하고, 데스크톱 녹화로부터 사용자 행동을 추출하는 것은 미개척된 영역입니다. 본 논문은 사용자 행동 추출을 위한 두 가지 새로운 VLM 기반 방법을 제안하여 이 간극을 해소합니다: 샘플된 프레임을 VLM에 직접 입력하는 직접 프레임 기반 접근법(DF)과 컴퓨터 비전 기술을 통해 감지된 명시적인 프레임 차이를 통합하는 차이 프레임 기반 접근법(DiffF). 우리는 이러한 방법들을 기본적인 자체 제작 데이터셋과 이전 연구에서 채택한 고급 벤치마크를 사용하여 평가합니다. 결과는 DF 접근법이 사용자 행동을 식별하는 데 70%에서 80%의 정확도를 달성하며, 추출된 행동 순서는 로봇 프로세스 자동화를 통해 재생 가능함을 보여줍니다. VLM이 잠재력을 보이지만 명시적인 UI 변경을 통합하는 것이 성능을 저하시킬 수 있어 DF 접근법이 더 신뢰할 수 있음을 발견했습니다. 본 연구는 데스크톱 녹화로부터 사용자 행동 순서를 추출하기 위한 VLM의 첫 응용을 대표하며, 미래 연구를 위한 새로운 방법, 벤치마크, 통찰을 제공합니다.
English
Video recordings of user activities, particularly desktop recordings, offer a
rich source of data for understanding user behaviors and automating processes.
However, despite advancements in Vision-Language Models (VLMs) and their
increasing use in video analysis, extracting user actions from desktop
recordings remains an underexplored area. This paper addresses this gap by
proposing two novel VLM-based methods for user action extraction: the Direct
Frame-Based Approach (DF), which inputs sampled frames directly into VLMs, and
the Differential Frame-Based Approach (DiffF), which incorporates explicit
frame differences detected via computer vision techniques. We evaluate these
methods using a basic self-curated dataset and an advanced benchmark adapted
from prior work. Our results show that the DF approach achieves an accuracy of
70% to 80% in identifying user actions, with the extracted action sequences
being re-playable though Robotic Process Automation. We find that while VLMs
show potential, incorporating explicit UI changes can degrade performance,
making the DF approach more reliable. This work represents the first
application of VLMs for extracting user action sequences from desktop
recordings, contributing new methods, benchmarks, and insights for future
research.Summary
AI-Generated Summary