TULIP: Auf dem Weg zu einem einheitlichen Sprach-Bild-Vorabtraining
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Autoren: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Zusammenfassung
Trotz des jüngsten Erfolgs von Bild-Text-Kontrastmodellen wie CLIP und SigLIP kämpfen diese Modelle oft mit visuell zentrierten Aufgaben, die ein hochpräzises Bildverständnis erfordern, wie Zählen, Tiefenschätzung und feinkörnige Objekterkennung. Diese Modelle, die eine Sprachausrichtung durchführen, neigen dazu, hochrangige Semantik gegenüber dem visuellen Verständnis zu priorisieren, was ihr Bildverständnis schwächt. Auf der anderen Seite sind visuell fokussierte Modelle hervorragend in der Verarbeitung visueller Informationen, haben jedoch Schwierigkeiten, Sprache zu verstehen, was ihre Flexibilität für sprachgesteuerte Aufgaben einschränkt. In dieser Arbeit stellen wir TULIP vor, eine Open-Source, direkte Alternative zu bestehenden CLIP-ähnlichen Modellen. Unsere Methode nutzt generative Datenaugmentierung, verbessertes Bild-Bild- und Text-Text-Kontrastlernen sowie Bild-/Text-Rekonstruktionsregularisierung, um feinkörnige visuelle Merkmale zu erlernen und gleichzeitig die globale semantische Ausrichtung beizubehalten. Unser Ansatz, der auf über 1 Milliarde Parameter skaliert, übertrifft bestehende State-of-the-Art (SOTA)-Modelle in mehreren Benchmarks, etabliert eine neue SOTA Zero-Shot-Leistung auf ImageNet-1K, liefert eine bis zu 2-fache Verbesserung gegenüber SigLIP auf RxRx1 in der linearen Sondierung für Few-Shot-Klassifikation und verbessert Vision-Language-Modelle, indem er über 3-mal höhere Werte als SigLIP auf MMVP erreicht. Unser Code/Checkpoints sind verfügbar unter https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.ioSummary
AI-Generated Summary