Scalabilità del Pre-Addestramento Visivo alla Risoluzione 4K
Scaling Vision Pre-Training to 4K Resolution
March 25, 2025
Autori: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI
Abstract
La percezione ad alta risoluzione dei dettagli visivi è cruciale per le attività quotidiane. Tuttavia, l'attuale pre-addestramento visivo è ancora limitato a risoluzioni basse (ad esempio, 378 x 378 pixel) a causa del costo quadratico di elaborazione di immagini più grandi. Introduciamo PS3, che scala il pre-addestramento visivo in stile CLIP fino a una risoluzione 4K con un costo quasi costante. Invece di utilizzare l'apprendimento contrastivo sulla rappresentazione globale dell'immagine, PS3 viene pre-addestrato elaborando selettivamente regioni locali e confrontandole con didascalie dettagliate locali, consentendo l'apprendimento di rappresentazioni ad alta risoluzione con un overhead computazionale notevolmente ridotto. Il modello pre-addestrato PS3 è in grado sia di codificare l'immagine globale a bassa risoluzione sia di elaborare selettivamente regioni locali ad alta risoluzione in base alla loro salienza o rilevanza rispetto a un prompt testuale. Quando PS3 viene applicato a un LLM multimodale (MLLM), il modello risultante, denominato VILA-HD, migliora significativamente la percezione visiva ad alta risoluzione rispetto ai baseline senza pre-addestramento visivo ad alta risoluzione, come AnyRes e S^2, utilizzando fino a 4,3 volte meno token. PS3 sblocca anche interessanti proprietà di scalabilità di VILA-HD, inclusa la scalabilità della risoluzione senza costi aggiuntivi e l'aumento del calcolo al momento del test per ottenere prestazioni migliori. Rispetto allo stato dell'arte, VILA-HD supera i precedenti MLLM come NVILA e Qwen2-VL su più benchmark e raggiunge una migliore efficienza rispetto ai più recenti approcci di pruning dei token. Infine, osserviamo che gli attuali benchmark non richiedono una percezione a risoluzione 4K, il che ci ha motivato a proporre 4KPro, un nuovo benchmark di QA su immagini a risoluzione 4K, su cui VILA-HD supera tutti i precedenti MLLM, con un miglioramento del 14,5% rispetto a GPT-4o e un miglioramento del 3,2% e un'accelerazione di 2,96 volte rispetto a Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks.
Current vision pre-training, however, is still limited to low resolutions
(e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images.
We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution
with a near-constant cost. Instead of contrastive learning on global image
representation, PS3 is pre-trained by selectively processing local regions and
contrasting them with local detailed captions, enabling high-resolution
representation learning with greatly reduced computational overhead. The
pre-trained PS3 is able to both encode the global image at low resolution and
selectively process local high-resolution regions based on their saliency or
relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the
resulting model, named VILA-HD, significantly improves high-resolution visual
perception compared to baselines without high-resolution vision pre-training
such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks
appealing scaling properties of VILA-HD, including scaling up resolution for
free and scaling up test-time compute for better performance. Compared to state
of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL
across multiple benchmarks and achieves better efficiency than latest token
pruning approaches. Finally, we find current benchmarks do not require
4K-resolution perception, which motivates us to propose 4KPro, a new benchmark
of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs,
including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x
speedup over Qwen2-VL.Summary
AI-Generated Summary