Tarsier2: 詳細なビデオ説明から包括的なビデオ理解への大規模ビジョン言語モデルの進化
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
January 14, 2025
著者: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI
要旨
Tarsier2は、詳細で正確なビデオの説明を生成することを目的とした最先端の大規模ビジョン言語モデル(LVLM)であり、同時に優れた一般的なビデオ理解能力を示します。Tarsier2は、3つの主要なアップグレードを通じて重要な進展を達成しています:(1)11Mから40Mのビデオテキストペアへの事前トレーニングデータのスケーリングにより、ボリュームと多様性の両方を豊かにしました;(2)教師付きファインチューニング中の細かい時間的整合性の実行;(3)モデルベースのサンプリングを使用して自動的に選好データを構築し、最適化のためにDPOトレーニングを適用しています。幅広い実験により、Tarsier2-7Bは、GPT-4oやGemini 1.5 Proなどの主要なプロプライエタリモデルを常に上回り、詳細なビデオ説明タスクにおいて優れた性能を発揮します。DREAM-1Kベンチマークでは、Tarsier2-7Bは、GPT-4oよりもF1を2.8\%、Gemini-1.5-Proよりも5.8\%向上させます。人間のサイドバイサイド評価では、Tarsier2-7Bは、GPT-4oよりも+8.6\%、Gemini-1.5-Proよりも+24.9%の性能アドバンテージを示します。Tarsier2-7Bは、ビデオ質問回答、ビデオグラウンディング、幻覚テスト、具現化質問回答など、15の公開ベンチマーク全体で新しい最先端の結果を達成し、堅牢な一般的なビジョン言語モデルとしての汎用性を示しています。
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM)
designed for generating detailed and accurate video descriptions, while also
exhibiting superior general video understanding capabilities. Tarsier2 achieves
significant advancements through three key upgrades: (1) Scaling pre-training
data from 11M to 40M video-text pairs, enriching both volume and diversity; (2)
Performing fine-grained temporal alignment during supervised fine-tuning; (3)
Using model-based sampling to automatically construct preference data and
applying DPO training for optimization. Extensive experiments show that
Tarsier2-7B consistently outperforms leading proprietary models, including
GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K
benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over
Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\%
performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B
also sets new state-of-the-art results across 15 public benchmarks, spanning
tasks such as video question-answering, video grounding, hallucination test,
and embodied question-answering, demonstrating its versatility as a robust
generalist vision-language model.Summary
AI-Generated Summary