Tarsier2: Развитие крупных моделей видео-языкового восприятия от подробного описания видео к комплексному пониманию видео.
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
January 14, 2025
Авторы: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI
Аннотация
Мы представляем Tarsier2, передовую модель большого видео-языкового объема (LVLM), разработанную для создания подробных и точных описаний видео, а также обладающую превосходными общими возможностями понимания видео. Tarsier2 достигает значительных прогрессов благодаря трем ключевым улучшениям: (1) Масштабирование предварительного обучения данных с 11 млн до 40 млн пар видео-текст, обогащая как объем, так и разнообразие; (2) Осуществление тонкой временной синхронизации во время надзорного дообучения; (3) Использование модельно-ориентированной выборки для автоматического создания данных о предпочтениях и применение обучения DPO для оптимизации. Обширные эксперименты показывают, что Tarsier2-7B последовательно превосходит ведущие собственные модели, включая GPT-4o и Gemini 1.5 Pro, в задачах подробного описания видео. На тесте DREAM-1K Tarsier2-7B улучшает F1 на 2,8\% по сравнению с GPT-4o и на 5,8\% по сравнению с Gemini-1.5-Pro. В человеческих сравнительных оценках Tarsier2-7B показывает преимущество в производительности +8,6\% по сравнению с GPT-4o и +24,9\% по сравнению с Gemini-1.5-Pro. Tarsier2-7B также устанавливает новые передовые результаты на 15 общедоступных тестах, охватывающих задачи, такие как ответы на вопросы по видео, привязка видео, тест галлюцинации и ответы на вопросы с воплощением, демонстрируя свою универсальность как надежной общей модели видео-языка.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM)
designed for generating detailed and accurate video descriptions, while also
exhibiting superior general video understanding capabilities. Tarsier2 achieves
significant advancements through three key upgrades: (1) Scaling pre-training
data from 11M to 40M video-text pairs, enriching both volume and diversity; (2)
Performing fine-grained temporal alignment during supervised fine-tuning; (3)
Using model-based sampling to automatically construct preference data and
applying DPO training for optimization. Extensive experiments show that
Tarsier2-7B consistently outperforms leading proprietary models, including
GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K
benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over
Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\%
performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B
also sets new state-of-the-art results across 15 public benchmarks, spanning
tasks such as video question-answering, video grounding, hallucination test,
and embodied question-answering, demonstrating its versatility as a robust
generalist vision-language model.Summary
AI-Generated Summary