Parameter-Inverted Image Pyramid Networks voor Visuele Perceptie en Multimodale Begrip

Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

January 14, 2025
Auteurs: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI

Samenvatting

Beeldpiramides worden veel gebruikt in hoogwaardige methoden om multi-schaal eigenschappen te verkrijgen voor nauwkeurige visuele perceptie en begrip. Huidige beeldpiramides maken echter gebruik van hetzelfde grootschalige model om meerdere resoluties van beelden te verwerken, wat resulteert in aanzienlijke rekenkundige kosten. Om deze uitdaging aan te pakken, stellen wij een nieuw netwerkarchitectuur voor, genaamd Parameter-Inverted Image Pyramid Networks (PIIP). Specifiek maakt PIIP gebruik van vooraf getrainde modellen (ViTs of CNNs) als vertakkingen om multi-schaal beelden te verwerken, waarbij beelden met hogere resoluties worden verwerkt door kleinere netwerkvertakkingen om de rekenkundige kosten en prestaties in balans te brengen. Om informatie van verschillende ruimtelijke schalen te integreren, stellen wij verder een nieuw mechanisme voor voor kruis-vertakkingskenmerkinteractie voor. Om PIIP te valideren, passen we het toe op verschillende perceptiemodellen en een representatief multimodaal groot taalmodel genaamd LLaVA, en voeren uitgebreide experimenten uit op verschillende taken zoals objectdetectie, segmentatie, beeldclassificatie en multimodaal begrip. PIIP behaalt superieure prestaties in vergelijking met enkelvoudige vertakkingen en bestaande multi-resolutie benaderingen met lagere rekenkundige kosten. Wanneer toegepast op InternViT-6B, een grootschalig visionair foundationmodel, kan PIIP de prestaties ervan verbeteren met 1%-2% op detectie en segmentatie met slechts 40%-60% van de oorspronkelijke berekening, uiteindelijk een box AP van 60.0 behalen op MS COCO en 59.7 mIoU op ADE20K. Voor multimodaal begrip behaalt onze PIIP-LLaVA 73.0% nauwkeurigheid op TextVQA en 74.5% op MMBench met slechts 2.8M trainingsgegevens. Onze code is beschikbaar op https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain multi-scale features for precise visual perception and understanding. However, current image pyramids use the same large-scale model to process multiple resolutions of images, leading to significant computational cost. To address this challenge, we propose a novel network architecture, called Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses pretrained models (ViTs or CNNs) as branches to process multi-scale images, where images of higher resolutions are processed by smaller network branches to balance computational cost and performance. To integrate information from different spatial scales, we further propose a novel cross-branch feature interaction mechanism. To validate PIIP, we apply it to various perception models and a representative multimodal large language model called LLaVA, and conduct extensive experiments on various tasks such as object detection, segmentation, image classification and multimodal understanding. PIIP achieves superior performance compared to single-branch and existing multi-resolution approaches with lower computational cost. When applied to InternViT-6B, a large-scale vision foundation model, PIIP can improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation, finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and 74.5% on MMBench with only 2.8M training data. Our code is released at https://github.com/OpenGVLab/PIIP.

Summary

AI-Generated Summary

PDF72January 16, 2025