Tarsier2: Fortschritte bei großen Vision-Language-Modellen von detaillierten Video-Beschreibungen zu umfassendem Video-Verständnis

Zusammenfassung

Wir stellen Tarsier2 vor, ein hochmodernes großes Modell für die Verbindung von Vision und Sprache (LVLM), das darauf ausgelegt ist, detaillierte und präzise Videobeschreibungen zu generieren und gleichzeitig über herausragende allgemeine Verständnisfähigkeiten für Videos zu verfügen. Tarsier2 erzielt signifikante Fortschritte durch drei Schlüsselverbesserungen: (1) Skalierung des Vortrainingsdatensatzes von 11M auf 40M Video-Text-Paare, was sowohl das Volumen als auch die Vielfalt bereichert; (2) Durchführung einer feinkörnigen zeitlichen Abstimmung während des überwachten Feintunings; (3) Verwendung von modellbasiertem Sampling zur automatischen Erstellung von Präferenzdaten und Anwendung des DPO-Trainings zur Optimierung. Umfangreiche Experimente zeigen, dass Tarsier2-7B in detaillierten Videobeschreibungsaufgaben durchgehend führende proprietäre Modelle, einschließlich GPT-4o und Gemini 1.5 Pro, übertrifft. Auf dem DREAM-1K-Benchmark verbessert Tarsier2-7B den F1-Wert um 2,8\% gegenüber GPT-4o und um 5,8\% gegenüber Gemini-1.5-Pro. In menschlichen Seit-an-Seit-Bewertungen zeigt Tarsier2-7B einen Leistungsvorteil von +8,6\% gegenüber GPT-4o und +24,9\% gegenüber Gemini-1.5-Pro. Tarsier2-7B erzielt auch neue Spitzenwerte in 15 öffentlichen Benchmarks, die Aufgaben wie Video-Fragenbeantwortung, Video-Verankerung, Halluzinationstest und verkörperte Fragenbeantwortung umfassen, und zeigt damit seine Vielseitigkeit als robustes allgemeines Modell für die Verbindung von Vision und Sprache.

English

We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

Tarsier2: Fortschritte bei großen Vision-Language-Modellen von detaillierten Video-Beschreibungen zu umfassendem Video-Verständnis

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Zusammenfassung

Support