Sollten VLMs mit Bilddaten vortrainiert werden?
Should VLMs be Pre-trained with Image Data?
March 10, 2025
Autoren: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI
Zusammenfassung
Vortrainierte LLMs, die zusätzlich mit Bilddaten trainiert werden, zeigen gute Leistungen bei Vision-Language-Aufgaben. Während das Hinzufügen von Bildern in einer zweiten Trainingsphase diese Fähigkeit effektiv freisetzt, ist unklar, wie viel Gewinn oder Verlust dieser zweistufige Prozess im Vergleich zu VLMs bringt, die Bilder früher in den Trainingsprozess integrieren. Um dies zu untersuchen, trainieren wir Modelle mit verschiedenen Datensätzen, Skalierungen, Bild-Text-Verhältnissen und unterschiedlichem Umfang an Vortraining, bevor visuelle Tokens eingeführt werden. Anschließend feintunen wir diese Modelle und bewerten ihre Leistung auf einer Reihe von Vision-Language- und reinen Textaufgaben. Wir stellen fest, dass das Vortraining mit einer Mischung aus Bild- und Textdaten es Modellen ermöglicht, bei Vision-Language-Aufgaben besser abzuschneiden, während sie gleichzeitig starke Leistungen bei reinen Textbewertungen beibehalten. Im Durchschnitt über 6 verschiedene Aufgaben zeigen wir, dass bei einem 1B-Modell die Einführung visueller Tokens nach 80 % des Vortrainings zu einer durchschnittlichen Verbesserung von 2 % führt, verglichen mit der Einführung visueller Tokens in ein vollständig vortrainiertes Modell.
English
Pre-trained LLMs that are further trained with image data perform well on
vision-language tasks. While adding images during a second training phase
effectively unlocks this capability, it is unclear how much of a gain or loss
this two-step pipeline gives over VLMs which integrate images earlier into the
training process. To investigate this, we train models spanning various
datasets, scales, image-text ratios, and amount of pre-training done before
introducing vision tokens. We then fine-tune these models and evaluate their
downstream performance on a suite of vision-language and text-only tasks. We
find that pre-training with a mixture of image and text data allows models to
perform better on vision-language tasks while maintaining strong performance on
text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B
model, introducing visual tokens 80% of the way through pre-training results in
a 2% average improvement over introducing visual tokens to a fully pre-trained
model.Summary
AI-Generated Summary