ChatPaper.aiChatPaper

LiveCC: Video LLM leren met streaming spraaktranscriptie op grote schaal

LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

April 22, 2025
Auteurs: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
cs.AI

Samenvatting

Recente grote videotaalmodellen (Video LLM's) zijn vaak afhankelijk van kostbare menselijke annotaties of propriëtaire model-API's (bijv. GPT-4o) om trainingsdata te genereren, wat hun training op grote schaal beperkt. In dit artikel onderzoeken we grootschalige training voor Video LLM's met goedkope automatische spraakherkenning (ASR)-transcripten. Specifiek stellen we een nieuwe streaming-trainingsmethode voor die de ASR-woorden en videobeelden dicht op elkaar afwisselt volgens hun tijdstempels. In vergelijking met eerdere studies in visie-taalrepresentatie met ASR, past onze methode zich natuurlijk aan de streamingkenmerken van ASR aan, waardoor het model tijdelijk uitgelijnde, fijnmazige visie-taalmodellering kan leren. Om het trainingsalgoritme te ondersteunen, introduceren we een dataproductiepijplijn om YouTube-video's en hun ondertiteling (CC, hetzelfde als ASR) te verwerken, wat resulteert in de Live-CC-5M-dataset voor pre-training en de Live-WhisperX-526K-dataset voor hoogwaardige supervised fine-tuning (SFT). Opmerkelijk is dat zelfs zonder SFT het alleen met ASR getrainde LiveCC-7B-Base-model competitieve algemene video-QA-prestaties vertoont en een nieuwe mogelijkheid toont in real-time videocommentaar. Om dit te evalueren, hebben we zorgvuldig een nieuwe LiveSports-3K-benchmark ontworpen, waarbij we LLM-as-a-judge gebruiken om het vrijgevormde commentaar te meten. Experimenten tonen aan dat ons uiteindelijke LiveCC-7B-Instruct-model geavanceerde 72B-modellen (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) kan overtreffen in commentaarkwaliteit, zelfs wanneer het in real-time werkt. Tegelijkertijd behaalt het state-of-the-art resultaten op de 7B/8B-schaal op populaire video-QA-benchmarks zoals VideoMME en OVOBench, wat de brede generaliseerbaarheid van onze aanpak aantoont. Alle bronnen van dit artikel zijn vrijgegeven op https://showlab.github.io/livecc.
English
Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.

Summary

AI-Generated Summary

PDF322April 23, 2025