ChatPaper.aiChatPaper

Florenz: Skalierungsgesetze für systematische Generalisierung in Vision-Sprache-Modellen

Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

March 12, 2025
Autoren: Julian Spravil, Sebastian Houben, Sven Behnke
cs.AI

Zusammenfassung

Cross-lingualer Transfer ermöglicht es Vision-Sprache-Modellen (VLMs), Vision-Aufgaben in verschiedenen Sprachen auszuführen, obwohl sie nur mit Trainingsdaten in einer Sprache trainiert wurden. Aktuelle Ansätze stützen sich auf große, vortrainierte mehrsprachige Sprachmodelle. Diese stehen jedoch vor dem Fluch der Mehrsprachigkeit, bei dem die Leistung bei nachgelagerten Aufgaben zugunsten mehrsprachiger Fähigkeiten geopfert wird, mit lexikalischen Mehrdeutigkeiten kämpfen und hinter den jüngsten Fortschritten zurückbleiben. In dieser Arbeit untersuchen wir die Skalierungsgesetze der systematischen Generalisierung mit monolingualen VLMs für mehrsprachige Aufgaben, wobei wir den Einfluss der Modellgröße und der gesehenen Trainingsdaten betrachten. Wir stellen Florenz vor, ein monolinguales Encoder-Decoder-VLM mit 0,4 bis 11,2 Milliarden Parametern, das das vortrainierte VLM Florence-2 und das große Sprachmodell Gemma-2 kombiniert. Florenz wird mit variierenden Rechenbudgets auf einem synthetischen Datensatz trainiert, der bewusst unvollständige Sprachabdeckung für Bildbeschreibungen aufweist, wodurch die Generalisierung von der vollständig abgedeckten Übersetzungsaufgabe getestet wird. Wir zeigen, dass nicht nur das indirekte Lernen von unbekannten Aufgaben-Sprach-Paaren einem Skalierungsgesetz folgt, sondern auch, dass mit unserer Daten-Generierungspipeline und der vorgeschlagenen Florenz-Modellfamilie Bildbeschreibungsfähigkeiten in einer bestimmten Sprache entstehen können, selbst wenn nur Daten für die Übersetzungsaufgabe verfügbar sind. Das Feinabstimmen auf einer Mischung von nachgelagerten Datensätzen erzielt wettbewerbsfähige Leistungen und zeigt vielversprechende Skalierungstrends in der multimodalen maschinellen Übersetzung (Multi30K, CoMMuTE), lexikalischen Disambiguierung (CoMMuTE) und Bildbeschreibung (Multi30K, XM3600, COCO Karpathy).
English
Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

Summary

AI-Generated Summary

PDF72March 19, 2025