ChatPaper.aiChatPaper

타시어2: 상세 비디오 설명에서 포괄적 비디오 이해로 대규모 비전-언어 모델 발전

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

January 14, 2025
저자: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI

초록

우리는 Tarsier2를 소개합니다. 이는 최첨단 대형 비전-언어 모델(LVLM)로, 상세하고 정확한 비디오 설명을 생성하는 데 설계되었으며 우수한 비디오 이해 능력을 보여줍니다. Tarsier2는 세 가지 주요 업그레이드를 통해 중요한 발전을 이루었습니다: (1) 11백만에서 40백만 비디오-텍스트 쌍으로 사전 훈련 데이터 확장, 양과 다양성을 풍부하게 함; (2) 지도된 세밀한 시간적 정렬 수행; (3) 모델 기반 샘플링을 사용하여 선호 데이터를 자동으로 구성하고 최적화를 위해 DPO 훈련을 적용함. 광범위한 실험 결과, Tarsier2-7B는 상세한 비디오 설명 작업에서 GPT-4o 및 Gemini 1.5 Pro를 포함한 선도적인 전용 모델을 일관되게 능가합니다. DREAM-1K 벤치마크에서 Tarsier2-7B는 GPT-4o 대비 F1을 2.8\% 향상시키고 Gemini-1.5-Pro 대비 5.8\% 향상시킵니다. 인간의 측면에서 직접 비교한 평가에서, Tarsier2-7B는 GPT-4o 대비 +8.6\%의 성능 우위와 Gemini-1.5-Pro 대비 +24.9\%의 우위를 보여줍니다. Tarsier2-7B는 비디오 질문-답변, 비디오 그라운딩, 환영 테스트, 그리고 실체 질문-답변과 같은 작업을 포함하는 15개의 공개 벤치마크에서 새로운 최첨단 결과를 세우며, 견고한 일반 비전-언어 모델로서의 다재다능성을 입증합니다.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

Summary

AI-Generated Summary

PDF152January 15, 2025