Parameter-Inverted Image Pyramid Networks voor Visuele Perceptie en Multimodale Begrip
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Auteurs: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Samenvatting
Beeldpiramides worden veel gebruikt in hoogwaardige methoden om multi-schaal eigenschappen te verkrijgen voor nauwkeurige visuele perceptie en begrip. Huidige beeldpiramides maken echter gebruik van hetzelfde grootschalige model om meerdere resoluties van beelden te verwerken, wat resulteert in aanzienlijke rekenkundige kosten. Om deze uitdaging aan te pakken, stellen wij een nieuw netwerkarchitectuur voor, genaamd Parameter-Inverted Image Pyramid Networks (PIIP). Specifiek maakt PIIP gebruik van vooraf getrainde modellen (ViTs of CNNs) als vertakkingen om multi-schaal beelden te verwerken, waarbij beelden met hogere resoluties worden verwerkt door kleinere netwerkvertakkingen om de rekenkundige kosten en prestaties in balans te brengen. Om informatie van verschillende ruimtelijke schalen te integreren, stellen wij verder een nieuw mechanisme voor voor kruis-vertakkingskenmerkinteractie voor. Om PIIP te valideren, passen we het toe op verschillende perceptiemodellen en een representatief multimodaal groot taalmodel genaamd LLaVA, en voeren uitgebreide experimenten uit op verschillende taken zoals objectdetectie, segmentatie, beeldclassificatie en multimodaal begrip. PIIP behaalt superieure prestaties in vergelijking met enkelvoudige vertakkingen en bestaande multi-resolutie benaderingen met lagere rekenkundige kosten. Wanneer toegepast op InternViT-6B, een grootschalig visionair foundationmodel, kan PIIP de prestaties ervan verbeteren met 1%-2% op detectie en segmentatie met slechts 40%-60% van de oorspronkelijke berekening, uiteindelijk een box AP van 60.0 behalen op MS COCO en 59.7 mIoU op ADE20K. Voor multimodaal begrip behaalt onze PIIP-LLaVA 73.0% nauwkeurigheid op TextVQA en 74.5% op MMBench met slechts 2.8M trainingsgegevens. Onze code is beschikbaar op https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary