Tarsier2: Fortschritte bei großen Vision-Language-Modellen von detaillierten Video-Beschreibungen zu umfassendem Video-Verständnis
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
January 14, 2025
Autoren: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI
Zusammenfassung
Wir stellen Tarsier2 vor, ein hochmodernes großes Modell für die Verbindung von Vision und Sprache (LVLM), das darauf ausgelegt ist, detaillierte und präzise Videobeschreibungen zu generieren und gleichzeitig über herausragende allgemeine Verständnisfähigkeiten für Videos zu verfügen. Tarsier2 erzielt signifikante Fortschritte durch drei Schlüsselverbesserungen: (1) Skalierung des Vortrainingsdatensatzes von 11M auf 40M Video-Text-Paare, was sowohl das Volumen als auch die Vielfalt bereichert; (2) Durchführung einer feinkörnigen zeitlichen Abstimmung während des überwachten Feintunings; (3) Verwendung von modellbasiertem Sampling zur automatischen Erstellung von Präferenzdaten und Anwendung des DPO-Trainings zur Optimierung. Umfangreiche Experimente zeigen, dass Tarsier2-7B in detaillierten Videobeschreibungsaufgaben durchgehend führende proprietäre Modelle, einschließlich GPT-4o und Gemini 1.5 Pro, übertrifft. Auf dem DREAM-1K-Benchmark verbessert Tarsier2-7B den F1-Wert um 2,8\% gegenüber GPT-4o und um 5,8\% gegenüber Gemini-1.5-Pro. In menschlichen Seit-an-Seit-Bewertungen zeigt Tarsier2-7B einen Leistungsvorteil von +8,6\% gegenüber GPT-4o und +24,9\% gegenüber Gemini-1.5-Pro. Tarsier2-7B erzielt auch neue Spitzenwerte in 15 öffentlichen Benchmarks, die Aufgaben wie Video-Fragenbeantwortung, Video-Verankerung, Halluzinationstest und verkörperte Fragenbeantwortung umfassen, und zeigt damit seine Vielseitigkeit als robustes allgemeines Modell für die Verbindung von Vision und Sprache.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM)
designed for generating detailed and accurate video descriptions, while also
exhibiting superior general video understanding capabilities. Tarsier2 achieves
significant advancements through three key upgrades: (1) Scaling pre-training
data from 11M to 40M video-text pairs, enriching both volume and diversity; (2)
Performing fine-grained temporal alignment during supervised fine-tuning; (3)
Using model-based sampling to automatically construct preference data and
applying DPO training for optimization. Extensive experiments show that
Tarsier2-7B consistently outperforms leading proprietary models, including
GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K
benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over
Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\%
performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B
also sets new state-of-the-art results across 15 public benchmarks, spanning
tasks such as video question-answering, video grounding, hallucination test,
and embodied question-answering, demonstrating its versatility as a robust
generalist vision-language model.Summary
AI-Generated Summary