Skalierung des Vision-Pre-Trainings auf 4K-Auflösung
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Autoren: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Zusammenfassung
Die hochauflösende Wahrnehmung visueller Details ist entscheidend für alltägliche Aufgaben. Die derzeitige Vorverarbeitung von Bilddaten ist jedoch aufgrund der quadratischen Kosten bei der Verarbeitung größerer Bilder noch auf niedrige Auflösungen (z. B. 378 x 378 Pixel) beschränkt. Wir stellen PS3 vor, das das CLIP-ähnliche Vorverarbeitungstraining für Vision auf 4K-Auflösung mit nahezu konstanten Kosten skaliert. Anstatt kontrastives Lernen auf globalen Bildrepräsentationen durchzuführen, wird PS3 durch die selektive Verarbeitung lokaler Regionen und deren Kontrastierung mit detaillierten lokalen Beschreibungen vorverarbeitet, wodurch das Lernen hochauflösender Repräsentationen mit deutlich reduziertem Rechenaufwand ermöglicht wird. Das vorverarbeitete PS3 kann sowohl das globale Bild in niedriger Auflösung kodieren als auch selektiv lokale hochauflösende Regionen basierend auf deren Salienz oder Relevanz für einen Textprompt verarbeiten. Bei der Anwendung von PS3 auf ein multimodales LLM (MLLM) verbessert das resultierende Modell, genannt VILA-HD, die hochauflösende visuelle Wahrnehmung im Vergleich zu Baselines ohne hochauflösendes Vision-Training wie AnyRes und S^2 deutlich, wobei bis zu 4,3-mal weniger Tokens verwendet werden. PS3 ermöglicht auch attraktive Skalierungseigenschaften von VILA-HD, einschließlich der kostenlosen Skalierung der Auflösung und der Skalierung der Rechenleistung zur Testzeit für eine bessere Leistung. Im Vergleich zum Stand der Technik übertrifft VILA-HD frühere MLLMs wie NVILA und Qwen2-VL in mehreren Benchmarks und erreicht eine bessere Effizienz als die neuesten Token-Pruning-Ansätze. Schließlich stellen wir fest, dass aktuelle Benchmarks keine 4K-Auflösungswahrnehmung erfordern, was uns dazu motiviert, 4KPro vorzuschlagen, einen neuen Benchmark für Bild-Fragen bei 4K-Auflösung, bei dem VILA-HD alle bisherigen MLLMs übertrifft, einschließlich einer Verbesserung von 14,5 % gegenüber GPT-4o und einer Verbesserung von 3,2 % sowie einer 2,96-fachen Beschleunigung gegenüber Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary