ChatPaper.aiChatPaper

CoMP: Pre-training Multimodale Continuo per Modelli Fondamentali di Visione

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

March 24, 2025
Autori: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Abstract

I modelli di base pre-addestrati per la visione (Vision Foundation Models, VFMs) forniscono rappresentazioni visive robuste per un'ampia gamma di applicazioni. In questo articolo, pre-addestriamo in modo continuativo i VFMs prevalenti in maniera multimodale, in modo che possano elaborare senza sforzo input visivi di dimensioni variabili e produrre rappresentazioni visive più allineate con le rappresentazioni linguistiche, indipendentemente dal loro processo di pre-addestramento originale. A tal fine, introduciamo CoMP, una pipeline di pre-addestramento multimodale progettata con cura. CoMP utilizza un'Incorporazione Posizionale Rotativa Continua per supportare il pre-addestramento continuativo a risoluzione nativa e una Perdita di Allineamento tra le caratteristiche visive e testuali attraverso prototipi linguistici per allineare le rappresentazioni multimodali. Con un addestramento in tre fasi, i nostri VFMs raggiungono miglioramenti significativi non solo nella comprensione multimodale, ma anche in altre attività downstream come la classificazione e la segmentazione. In modo notevole, CoMP-SigLIP ottiene punteggi di 66.7 su ChartQA e 75.9 su DocVQA con un LLM da 0.5B, mantenendo un'accuratezza dell'87.4% su ImageNet-1K e un mIoU di 49.5 su ADE20K nella valutazione con chunk congelati.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.

Summary

AI-Generated Summary

PDF301March 26, 2025