ChatPaper.aiChatPaper

Optimierung der zeitlichen Präferenz für das Verständnis von Langformvideos

Temporal Preference Optimization for Long-Form Video Understanding

January 23, 2025
Autoren: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI

Zusammenfassung

Trotz signifikanter Fortschritte bei großen multimodalen Video-Modellen (Video-LMMs) bleibt die effektive zeitliche Verankerung in Langvideos eine Herausforderung für bestehende Modelle. Um diese Einschränkung zu adressieren, schlagen wir die Temporale Präferenzoptimierung (TPO) vor, ein neuartiges Post-Training-Framework, das entwickelt wurde, um die zeitliche Verankerungsfähigkeiten von Video-LMMs durch Präferenzlernen zu verbessern. TPO übernimmt einen Selbstlernansatz, der es den Modellen ermöglicht, zwischen gut verankerten und weniger genauen zeitlichen Antworten zu unterscheiden, indem kuratierte Präferenzdatensätze auf zwei Granularitäten genutzt werden: lokale zeitliche Verankerung, die sich auf spezifische Videosegmente konzentriert, und umfassende zeitliche Verankerung, die erweiterte zeitliche Abhängigkeiten über gesamte Videosequenzen erfasst. Durch die Optimierung auf diesen Präferenzdatensätzen verbessert TPO signifikant das zeitliche Verständnis und reduziert die Abhängigkeit von manuell annotierten Daten. Umfangreiche Experimente an drei Langvideo-Verständnis-Benchmarks - LongVideoBench, MLVU und Video-MME - zeigen die Wirksamkeit von TPO bei zwei modernsten Video-LMMs. Insbesondere etabliert sich LLaVA-Video-TPO als führendes 7B-Modell im Video-MME-Benchmark und unterstreicht das Potenzial von TPO als skalierbare und effiziente Lösung zur Förderung des zeitlichen Denkens im Verständnis von Langvideos. Projektseite: https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

Summary

AI-Generated Summary

PDF223January 24, 2025