TULIP: Auf dem Weg zu einem einheitlichen Sprach-Bild-Vorabtraining

Zusammenfassung

Trotz des jüngsten Erfolgs von Bild-Text-Kontrastmodellen wie CLIP und SigLIP kämpfen diese Modelle oft mit visuell zentrierten Aufgaben, die ein hochpräzises Bildverständnis erfordern, wie Zählen, Tiefenschätzung und feinkörnige Objekterkennung. Diese Modelle, die eine Sprachausrichtung durchführen, neigen dazu, hochrangige Semantik gegenüber dem visuellen Verständnis zu priorisieren, was ihr Bildverständnis schwächt. Auf der anderen Seite sind visuell fokussierte Modelle hervorragend in der Verarbeitung visueller Informationen, haben jedoch Schwierigkeiten, Sprache zu verstehen, was ihre Flexibilität für sprachgesteuerte Aufgaben einschränkt. In dieser Arbeit stellen wir TULIP vor, eine Open-Source, direkte Alternative zu bestehenden CLIP-ähnlichen Modellen. Unsere Methode nutzt generative Datenaugmentierung, verbessertes Bild-Bild- und Text-Text-Kontrastlernen sowie Bild-/Text-Rekonstruktionsregularisierung, um feinkörnige visuelle Merkmale zu erlernen und gleichzeitig die globale semantische Ausrichtung beizubehalten. Unser Ansatz, der auf über 1 Milliarde Parameter skaliert, übertrifft bestehende State-of-the-Art (SOTA)-Modelle in mehreren Benchmarks, etabliert eine neue SOTA Zero-Shot-Leistung auf ImageNet-1K, liefert eine bis zu 2-fache Verbesserung gegenüber SigLIP auf RxRx1 in der linearen Sondierung für Few-Shot-Klassifikation und verbessert Vision-Language-Modelle, indem er über 3-mal höhere Werte als SigLIP auf MMVP erreicht. Unser Code/Checkpoints sind verfügbar unter https://tulip-berkeley.github.io.

English

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

TULIP: Auf dem Weg zu einem einheitlichen Sprach-Bild-Vorabtraining

TULIP: Towards Unified Language-Image Pretraining

Zusammenfassung

Summary

Support

Support