Tarsier2: Avançando Modelos Avançados de Visão e Linguagem a partir de Descrições Detalhadas de Vídeo para Compreensão Abrangente de Vídeo

Resumo

Apresentamos o Tarsier2, um modelo de linguagem visual de última geração (LVLM) projetado para gerar descrições detalhadas e precisas de vídeos, ao mesmo tempo que demonstra capacidades superiores de compreensão geral de vídeos. O Tarsier2 alcança avanços significativos por meio de três atualizações-chave: (1) Escalonamento dos dados de pré-treinamento de 11M para 40M pares de vídeo-texto, enriquecendo tanto o volume quanto a diversidade; (2) Realização de alinhamento temporal refinado durante o ajuste fino supervisionado; (3) Utilização de amostragem baseada em modelo para construir automaticamente dados de preferência e aplicação de treinamento DPO para otimização. Experimentos extensivos mostram que o Tarsier2-7B supera consistentemente os principais modelos proprietários, incluindo o GPT-4o e o Gemini 1.5 Pro, em tarefas de descrição detalhada de vídeos. No benchmark DREAM-1K, o Tarsier2-7B melhora o F1 em 2,8\% em relação ao GPT-4o e 5,8\% em relação ao Gemini-1.5-Pro. Em avaliações humanas lado a lado, o Tarsier2-7B mostra uma vantagem de desempenho de +8,6\% sobre o GPT-4o e +24,9\% sobre o Gemini-1.5-Pro. O Tarsier2-7B também estabelece novos resultados de última geração em 15 benchmarks públicos, abrangendo tarefas como questionamento-resposta de vídeo, ancoragem de vídeo, teste de alucinação e questionamento-resposta incorporado, demonstrando sua versatilidade como um modelo robusto de linguagem visual generalista.

English

We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

Tarsier2: Avançando Modelos Avançados de Visão e Linguagem a partir de Descrições Detalhadas de Vídeo para Compreensão Abrangente de Vídeo

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Resumo

Summary

Support