ChatPaper.aiChatPaper

Scalabilità del Pre-Addestramento Visivo alla Risoluzione 4K

Scaling Vision Pre-Training to 4K Resolution

March 25, 2025
Autori: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
cs.AI

Abstract

La percezione ad alta risoluzione dei dettagli visivi è cruciale per le attività quotidiane. Tuttavia, l'attuale pre-addestramento visivo è ancora limitato a risoluzioni basse (ad esempio, 378 x 378 pixel) a causa del costo quadratico di elaborazione di immagini più grandi. Introduciamo PS3, che scala il pre-addestramento visivo in stile CLIP fino a una risoluzione 4K con un costo quasi costante. Invece di utilizzare l'apprendimento contrastivo sulla rappresentazione globale dell'immagine, PS3 viene pre-addestrato elaborando selettivamente regioni locali e confrontandole con didascalie dettagliate locali, consentendo l'apprendimento di rappresentazioni ad alta risoluzione con un overhead computazionale notevolmente ridotto. Il modello pre-addestrato PS3 è in grado sia di codificare l'immagine globale a bassa risoluzione sia di elaborare selettivamente regioni locali ad alta risoluzione in base alla loro salienza o rilevanza rispetto a un prompt testuale. Quando PS3 viene applicato a un LLM multimodale (MLLM), il modello risultante, denominato VILA-HD, migliora significativamente la percezione visiva ad alta risoluzione rispetto ai baseline senza pre-addestramento visivo ad alta risoluzione, come AnyRes e S^2, utilizzando fino a 4,3 volte meno token. PS3 sblocca anche interessanti proprietà di scalabilità di VILA-HD, inclusa la scalabilità della risoluzione senza costi aggiuntivi e l'aumento del calcolo al momento del test per ottenere prestazioni migliori. Rispetto allo stato dell'arte, VILA-HD supera i precedenti MLLM come NVILA e Qwen2-VL su più benchmark e raggiunge una migliore efficienza rispetto ai più recenti approcci di pruning dei token. Infine, osserviamo che gli attuali benchmark non richiedono una percezione a risoluzione 4K, il che ci ha motivato a proporre 4KPro, un nuovo benchmark di QA su immagini a risoluzione 4K, su cui VILA-HD supera tutti i precedenti MLLM, con un miglioramento del 14,5% rispetto a GPT-4o e un miglioramento del 3,2% e un'accelerazione di 2,96 volte rispetto a Qwen2-VL.
English
High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

Summary

AI-Generated Summary

PDF402March 26, 2025