Reti a piramide di immagini invertite per la percezione visiva e la comprensione multimodale
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Autori: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Abstract
Le piramidi di immagini sono ampiamente adottate nei metodi più performanti per ottenere caratteristiche multi-scala per una percezione visiva e comprensione precise. Tuttavia, le attuali piramidi di immagini utilizzano lo stesso modello a larga scala per elaborare multiple risoluzioni di immagini, comportando un notevole costo computazionale. Per affrontare questa sfida, proponiamo una nuova architettura di rete, chiamata Reti Piramide di Immagini con Parametri Invertiti (PIIP). In particolare, PIIP utilizza modelli preaddestrati (ViTs o CNN) come rami per elaborare immagini multi-scala, dove le immagini ad alta risoluzione sono elaborate da rami di rete più piccoli per bilanciare costo computazionale e prestazioni. Per integrare informazioni da diverse scale spaziali, proponiamo inoltre un nuovo meccanismo di interazione delle caratteristiche tra rami. Per convalidare PIIP, lo applichiamo a vari modelli di percezione e a un rappresentativo grande modello di linguaggio multimodale chiamato LLaVA, e conduciamo ampi esperimenti su varie attività come rilevamento oggetti, segmentazione, classificazione immagini e comprensione multimodale. PIIP raggiunge prestazioni superiori rispetto a approcci a singolo ramo e multi-risoluzione esistenti con un costo computazionale inferiore. Applicato a InternViT-6B, un modello di base di visione su larga scala, PIIP può migliorare le prestazioni del 1%-2% nel rilevamento e segmentazione con solo il 40%-60% del calcolo originale, raggiungendo infine 60.0 box AP su MS COCO e 59.7 mIoU su ADE20K. Per la comprensione multimodale, il nostro PIIP-LLaVA raggiunge un'accuratezza del 73.0% su TextVQA e del 74.5% su MMBench con solo 2.8M dati di addestramento. Il nostro codice è disponibile su https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary