VideoLights: Raffinamento delle Caratteristiche e Trasformatore di Allineamento tra Compiti per il Rilevamento Coniugato di Evidenziazioni Video e Recupero di Momenti

Abstract

La rilevazione dei momenti salienti nei video e il recupero dei momenti (HD/MR) sono essenziali nell'analisi video. I recenti modelli trasformer di previsione congiunta spesso trascurano la dinamica tra compiti e l'allineamento e il perfezionamento video-testo. Inoltre, la maggior parte dei modelli utilizza tipicamente meccanismi di attenzione limitati e unidirezionali, risultando in rappresentazioni debolmente integrate e prestazioni non ottimali nel catturare l'interdipendenza tra le modalità video e testo. Sebbene i modelli di lingua grande e di visione-lingua (LLM/LVLM) abbiano acquisito importanza in vari settori, la loro applicazione in questo campo rimane relativamente poco esplorata. Qui proponiamo VideoLights, un nuovo framework HD/MR che affronta queste limitazioni attraverso (i) moduli di Proiezione Convoluzionale e Perfezionamento delle Caratteristiche con una perdita di allineamento per una migliore allineamento delle caratteristiche video-testo, (ii) una rete di Fusione Incrociata Bi-direzionale per rappresentazioni di clip consapevoli delle query fortemente accoppiate, e (iii) un meccanismo di feedback congiunto unidirezionale che potenzia entrambi i compiti attraverso la correlazione. Inoltre, (iv) introduciamo perdite positive/negative dure per una penalizzazione degli errori adattiva e un apprendimento migliorato, e (v) sfruttiamo LVLM come BLIP-2 per un'integrazione di caratteristiche multimodali potenziata e un preaddestramento intelligente utilizzando dati sintetici generati da LVLM. Esperimenti approfonditi sui benchmark QVHighlights, TVSum e Charades-STA dimostrano prestazioni all'avanguardia. Codici e modelli sono disponibili su https://github.com/dpaul06/VideoLights.

English

Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video analysis. Recent joint prediction transformer models often overlook their cross-task dynamics and video-text alignment and refinement. Moreover, most models typically use limited, uni-directional attention mechanisms, resulting in weakly integrated representations and suboptimal performance in capturing the interdependence between video and text modalities. Although large-language and vision-language models (LLM/LVLMs) have gained prominence across various domains, their application in this field remains relatively underexplored. Here we propose VideoLights, a novel HD/MR framework addressing these limitations through (i) Convolutional Projection and Feature Refinement modules with an alignment loss for better video-text feature alignment, (ii) Bi-Directional Cross-Modal Fusion network for strongly coupled query-aware clip representations, and (iii) Uni-directional joint-task feedback mechanism enhancing both tasks through correlation. In addition, (iv) we introduce hard positive/negative losses for adaptive error penalization and improved learning, and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration and intelligent pretraining using synthetic data generated from LVLMs. Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks demonstrate state-of-the-art performance. Codes and models are available at https://github.com/dpaul06/VideoLights .

VideoLights: Raffinamento delle Caratteristiche e Trasformatore di Allineamento tra Compiti per il Rilevamento Coniugato di Evidenziazioni Video e Recupero di Momenti

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Abstract

Summary

Support