Optimalisatie van Temporele Voorkeur voor Begrip van Lange Video's

Samenvatting

Ondanks aanzienlijke vooruitgang in video grote multimodale modellen (video-LMM's), blijft het bereiken van effectieve temporele verankering in lange video's een uitdaging voor bestaande modellen. Om deze beperking aan te pakken, stellen we Temporele Voorkeursoptimalisatie (TPO) voor, een nieuw post-training framework dat is ontworpen om de temporele verankeringsmogelijkheden van video-LMM's te verbeteren door middel van voorkeursleren. TPO maakt gebruik van een zelf-trainingsbenadering die modellen in staat stelt onderscheid te maken tussen goed verankerde en minder nauwkeurige temporele reacties door gebruik te maken van samengestelde voorkeursdatasets op twee granulariteitsniveaus: gelokaliseerde temporele verankering, die zich richt op specifieke videosegmenten, en uitgebreide temporele verankering, die uitgebreide temporele afhankelijkheden over hele videosequenties vastlegt. Door te optimaliseren op deze voorkeursdatasets, verbetert TPO aanzienlijk het temporele begrip en vermindert het de afhankelijkheid van handmatig geannoteerde gegevens. Uitgebreide experimenten op drie benchmarks voor begrip van lange video's - LongVideoBench, MLVU en Video-MME - tonen de effectiviteit van TPO aan bij twee toonaangevende video-LMM's. Met name vestigt LLaVA-Video-TPO zich als het toonaangevende 7B-model op de Video-MME benchmark, waarbij het potentieel van TPO als een schaalbare en efficiënte oplossing voor het bevorderen van temporeel redeneren in begrip van lange video's wordt benadrukt. Projectpagina: https://ruili33.github.io/tpo_website.

English

Despite significant advancements in video large multimodal models (video-LMMs), achieving effective temporal grounding in long-form videos remains a challenge for existing models. To address this limitation, we propose Temporal Preference Optimization (TPO), a novel post-training framework designed to enhance the temporal grounding capabilities of video-LMMs through preference learning. TPO adopts a self-training approach that enables models to differentiate between well-grounded and less accurate temporal responses by leveraging curated preference datasets at two granularities: localized temporal grounding, which focuses on specific video segments, and comprehensive temporal grounding, which captures extended temporal dependencies across entire video sequences. By optimizing on these preference datasets, TPO significantly enhances temporal understanding while reducing reliance on manually annotated data. Extensive experiments on three long-form video understanding benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO establishes itself as the leading 7B model on the Video-MME benchmark, underscoring the potential of TPO as a scalable and efficient solution for advancing temporal reasoning in long-form video understanding. Project page: https://ruili33.github.io/tpo_website.

Optimalisatie van Temporele Voorkeur voor Begrip van Lange Video's

Temporal Preference Optimization for Long-Form Video Understanding

Samenvatting

Summary

Support