번호 매기기: 만화 뒤집기와 같은 시간적 매핑 비디오
Number it: Temporal Grounding Videos like Flipping Manga
November 15, 2024
저자: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
cs.AI
초록
비디오 대규모 언어 모델(Video Large Language Models, Vid-LLMs)은 QA 대화를 위한 비디오 콘텐츠를 이해하는 데 놀라운 진전을 이루었습니다. 그러나 정확한 시간적 위치 지정이 필요한 작업에 이 시각적 이해를 확장하는 데 어려움을 겪는데, 이를 비디오 시간적 지지(Video Temporal Grounding, VTG)라고 합니다. 이 간극을 해결하기 위해 우리는 Number-Prompt(NumPro)을 소개합니다. 이는 각 비디오 프레임에 고유한 숫자 식별자를 추가하여 Vid-LLMs가 시각적 이해와 시간적 지지를 연결할 수 있도록 하는 혁신적인 방법입니다. 비디오를 번호가 매겨진 프레임 이미지의 시퀀스로 취급하여, NumPro은 VTG를 직관적인 프로세스로 변환합니다: 연속된 만화 패널을 넘기는 것과 같습니다. 이를 통해 Vid-LLMs가 사건 타임라인을 "읽어내어" 시각적 콘텐츠를 해당 시간적 정보와 정확하게 연결할 수 있습니다. 우리의 실험 결과는 NumPro가 추가적인 계산 비용 없이 최고 수준의 Vid-LLMs의 VTG 성능을 현저히 향상시킨다는 것을 입증합니다. 더 나아가, NumPro로 향상된 데이터셋에서의 세밀한 조정은 순간 검색에서 이전 최고 성능 방법을 최대 6.9%의 mIoU, 하이라이트 탐지에서 8.5%의 mAP로 능가하는 VTG의 새로운 최첨단을 정의합니다. 코드는 https://github.com/yongliang-wu/NumPro에서 사용할 수 있습니다.
English
Video Large Language Models (Vid-LLMs) have made remarkable advancements in
comprehending video content for QA dialogue. However, they struggle to extend
this visual understanding to tasks requiring precise temporal localization,
known as Video Temporal Grounding (VTG). To address this gap, we introduce
Number-Prompt (NumPro), a novel method that empowers Vid-LLMs to bridge visual
comprehension with temporal grounding by adding unique numerical identifiers to
each video frame. Treating a video as a sequence of numbered frame images,
NumPro transforms VTG into an intuitive process: flipping through manga panels
in sequence. This allows Vid-LLMs to "read" event timelines, accurately linking
visual content with corresponding temporal information. Our experiments
demonstrate that NumPro significantly boosts VTG performance of top-tier
Vid-LLMs without additional computational cost. Furthermore, fine-tuning on a
NumPro-enhanced dataset defines a new state-of-the-art for VTG, surpassing
previous top-performing methods by up to 6.9\% in mIoU for moment retrieval and
8.5\% in mAP for highlight detection. The code will be available at
https://github.com/yongliang-wu/NumPro.Summary
AI-Generated Summary