장형식 비디오 이해를 위한 시간적 선호도 최적화
Temporal Preference Optimization for Long-Form Video Understanding
January 23, 2025
저자: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI
초록
비디오 대규모 다중 모달 모델(video-LMMs)의 중요한 발전에도 불구하고, 장편 비디오에서 효과적인 시간적 그라운딩을 달성하는 것은 기존 모델에 대한 도전 과제입니다. 이 한계를 해결하기 위해 우리는 Temporal Preference Optimization (TPO)이라는 새로운 사후 훈련 프레임워크를 제안합니다. 이 프레임워크는 선호 학습을 통해 비디오-LMMs의 시간적 그라운딩 능력을 향상시키기 위해 설계되었습니다. TPO는 모델이 정제된 선호 데이터셋을 활용하여 잘 그라운딩된 시간적 응답과 덜 정확한 시간적 응답을 구별할 수 있도록 하는 자가 훈련 접근 방식을 채택합니다. 이는 특정 비디오 세그먼트에 초점을 맞춘 지역화된 시간적 그라운딩과 전체 비디오 시퀀스에 걸친 확장된 시간적 종속성을 포착하는 포괄적인 시간적 그라운딩 두 가지 세분화 수준에서 이루어집니다. 이러한 선호 데이터셋에 대해 최적화함으로써 TPO는 수동으로 주석 달린 데이터에 대한 의존성을 줄이면서 시간적 이해를 크게 향상시킵니다. LongVideoBench, MLVU 및 Video-MME 세 가지 장편 비디오 이해 벤치마크에서 수행된 포괄적인 실험은 TPO의 효과를 입증하며, 최신 비디오-LMMs 두 가지에서 TPO의 효과를 입증합니다. 특히, LLaVA-Video-TPO는 Video-MME 벤치마크에서 선도적인 7B 모델로 자리 잡아, TPO가 장편 비디오 이해에서 시간적 추론을 발전시키는 확장 가능하고 효율적인 솔루션으로서의 잠재력을 강조합니다. 프로젝트 페이지: https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models
(video-LMMs), achieving effective temporal grounding in long-form videos
remains a challenge for existing models. To address this limitation, we propose
Temporal Preference Optimization (TPO), a novel post-training framework
designed to enhance the temporal grounding capabilities of video-LMMs through
preference learning. TPO adopts a self-training approach that enables models to
differentiate between well-grounded and less accurate temporal responses by
leveraging curated preference datasets at two granularities: localized temporal
grounding, which focuses on specific video segments, and comprehensive temporal
grounding, which captures extended temporal dependencies across entire video
sequences. By optimizing on these preference datasets, TPO significantly
enhances temporal understanding while reducing reliance on manually annotated
data. Extensive experiments on three long-form video understanding
benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness
of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO
establishes itself as the leading 7B model on the Video-MME benchmark,
underscoring the potential of TPO as a scalable and efficient solution for
advancing temporal reasoning in long-form video understanding. Project page:
https://ruili33.github.io/tpo_website.Summary
AI-Generated Summary