ChatPaper.aiChatPaper

비디오 라이트: 특징 세분화 및 교차 작업 정렬 트랜스포머를 활용한 공동 비디오 하이라이트 감지 및 순간 검색

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

December 2, 2024
저자: Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
cs.AI

초록

비디오 하이라이트 탐지 및 순간 검색 (HD/MR)은 비디오 분석에서 중요합니다. 최근의 공동 예측 트랜스포머 모델은 종종 교차 작업 동적 및 비디오-텍스트 정렬 및 정제를 간과합니다. 또한 대부분의 모델은 일방향 주의 메커니즘을 사용하여 통합된 표현과 비디오 및 텍스트 모드 간의 상호 의존성을 캡처하는 성능이 부족합니다. 비록 대규모 언어 및 비전-언어 모델 (LLM/LVLMs)이 다양한 영역에서 주목을 받았지만, 이 분야에서의 적용은 비교적 미개척 상태입니다. 본 연구에서는 이러한 한계를 해결하기 위해 Convolutional Projection 및 Feature Refinement 모듈을 사용한 정렬 손실을 통한 비디오-텍스트 특징 정렬 개선, 강력하게 결합된 쿼리 인식 클립 표현을 위한 양방향 교차 모달 퓨전 네트워크, 그리고 상호 관련성을 통해 양쪽 작업을 강화하는 단방향 공동 작업 피드백 메커니즘을 제안하는 VideoLights를 제안합니다. 또한 적응적 오류 처벌 및 개선된 학습을 위한 어려운 양성/음성 손실을 도입하고, BLIP-2와 같은 LVLMs를 활용하여 향상된 다중 모달 특징 통합 및 LVLMs에서 생성된 합성 데이터를 사용한 지능적인 사전 훈련을 소개합니다. QVHighlights, TVSum 및 Charades-STA 벤치마크에서의 포괄적인 실험은 최첨단 성능을 보여줍니다. 코드 및 모델은 https://github.com/dpaul06/VideoLights 에서 확인할 수 있습니다.
English
Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video analysis. Recent joint prediction transformer models often overlook their cross-task dynamics and video-text alignment and refinement. Moreover, most models typically use limited, uni-directional attention mechanisms, resulting in weakly integrated representations and suboptimal performance in capturing the interdependence between video and text modalities. Although large-language and vision-language models (LLM/LVLMs) have gained prominence across various domains, their application in this field remains relatively underexplored. Here we propose VideoLights, a novel HD/MR framework addressing these limitations through (i) Convolutional Projection and Feature Refinement modules with an alignment loss for better video-text feature alignment, (ii) Bi-Directional Cross-Modal Fusion network for strongly coupled query-aware clip representations, and (iii) Uni-directional joint-task feedback mechanism enhancing both tasks through correlation. In addition, (iv) we introduce hard positive/negative losses for adaptive error penalization and improved learning, and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration and intelligent pretraining using synthetic data generated from LVLMs. Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks demonstrate state-of-the-art performance. Codes and models are available at https://github.com/dpaul06/VideoLights .

Summary

AI-Generated Summary

PDF42December 4, 2024