VideoLights: Raffinamento delle Caratteristiche e Trasformatore di Allineamento tra Compiti per il Rilevamento Coniugato di Evidenziazioni Video e Recupero di Momenti
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval
December 2, 2024
Autori: Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
cs.AI
Abstract
La rilevazione dei momenti salienti nei video e il recupero dei momenti (HD/MR) sono essenziali nell'analisi video. I recenti modelli trasformer di previsione congiunta spesso trascurano la dinamica tra compiti e l'allineamento e il perfezionamento video-testo. Inoltre, la maggior parte dei modelli utilizza tipicamente meccanismi di attenzione limitati e unidirezionali, risultando in rappresentazioni debolmente integrate e prestazioni non ottimali nel catturare l'interdipendenza tra le modalità video e testo. Sebbene i modelli di lingua grande e di visione-lingua (LLM/LVLM) abbiano acquisito importanza in vari settori, la loro applicazione in questo campo rimane relativamente poco esplorata. Qui proponiamo VideoLights, un nuovo framework HD/MR che affronta queste limitazioni attraverso (i) moduli di Proiezione Convoluzionale e Perfezionamento delle Caratteristiche con una perdita di allineamento per una migliore allineamento delle caratteristiche video-testo, (ii) una rete di Fusione Incrociata Bi-direzionale per rappresentazioni di clip consapevoli delle query fortemente accoppiate, e (iii) un meccanismo di feedback congiunto unidirezionale che potenzia entrambi i compiti attraverso la correlazione. Inoltre, (iv) introduciamo perdite positive/negative dure per una penalizzazione degli errori adattiva e un apprendimento migliorato, e (v) sfruttiamo LVLM come BLIP-2 per un'integrazione di caratteristiche multimodali potenziata e un preaddestramento intelligente utilizzando dati sintetici generati da LVLM. Esperimenti approfonditi sui benchmark QVHighlights, TVSum e Charades-STA dimostrano prestazioni all'avanguardia. Codici e modelli sono disponibili su https://github.com/dpaul06/VideoLights.
English
Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video
analysis. Recent joint prediction transformer models often overlook their
cross-task dynamics and video-text alignment and refinement. Moreover, most
models typically use limited, uni-directional attention mechanisms, resulting
in weakly integrated representations and suboptimal performance in capturing
the interdependence between video and text modalities. Although large-language
and vision-language models (LLM/LVLMs) have gained prominence across various
domains, their application in this field remains relatively underexplored. Here
we propose VideoLights, a novel HD/MR framework addressing these limitations
through (i) Convolutional Projection and Feature Refinement modules with an
alignment loss for better video-text feature alignment, (ii) Bi-Directional
Cross-Modal Fusion network for strongly coupled query-aware clip
representations, and (iii) Uni-directional joint-task feedback mechanism
enhancing both tasks through correlation. In addition, (iv) we introduce hard
positive/negative losses for adaptive error penalization and improved learning,
and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration
and intelligent pretraining using synthetic data generated from LVLMs.
Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks
demonstrate state-of-the-art performance. Codes and models are available at
https://github.com/dpaul06/VideoLights .Summary
AI-Generated Summary