Tarsier2: Avanzamento dei grandi modelli di visione-linguaggio da descrizioni video dettagliate a una comprensione video completa

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

January 14, 2025
Autori: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI

Abstract

Introduciamo Tarsier2, un modello di visione-linguaggio di ultima generazione (LVLM) progettato per generare descrizioni video dettagliate e accurate, mostrando anche capacità superiori di comprensione video generale. Tarsier2 raggiunge significativi progressi attraverso tre aggiornamenti chiave: (1) Scalando i dati di pre-addestramento da 11M a 40M coppie video-testo, arricchendo sia il volume che la diversità; (2) Eseguendo un allineamento temporale dettagliato durante il fine-tuning supervisionato; (3) Utilizzando il campionamento basato sul modello per costruire automaticamente dati di preferenza e applicando l'addestramento DPO per l'ottimizzazione. Esperimenti estesi mostrano che Tarsier2-7B supera costantemente i principali modelli proprietari, inclusi GPT-4o e Gemini 1.5 Pro, nei compiti di descrizione video dettagliata. Sul benchmark DREAM-1K, Tarsier2-7B migliora l'F1 del 2.8\% rispetto a GPT-4o e del 5.8\% rispetto a Gemini-1.5-Pro. Nelle valutazioni umane affiancate, Tarsier2-7B mostra un vantaggio di prestazione del +8.6\% rispetto a GPT-4o e del +24.9\% rispetto a Gemini-1.5-Pro. Tarsier2-7B stabilisce anche nuovi risultati di ultima generazione su 15 benchmark pubblici, coprendo compiti come il question-answering video, il grounding video, il test di allucinazione e il question-answering incorporato, dimostrando la sua versatilità come modello di visione-linguaggio generalista robusto.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

Summary

AI-Generated Summary

PDF132January 15, 2025