Parameter-Invertierte Bildpyramiden-Netzwerke für visuelle Wahrnehmung und multimodales Verständnis
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Autoren: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Zusammenfassung
Bildpyramiden werden in leistungsstarken Methoden weit verbreitet eingesetzt, um mehrskalige Merkmale für eine präzise visuelle Wahrnehmung und Verständnis zu erhalten. Aktuelle Bildpyramiden verwenden jedoch dasselbe Modell im großen Maßstab, um mehrere Auflösungen von Bildern zu verarbeiten, was zu erheblichen Rechenkosten führt. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Netzwerkarchitektur namens Parameter-Inverted Image Pyramid Networks (PIIP) vor. Speziell verwendet PIIP vortrainierte Modelle (ViTs oder CNNs) als Zweige zur Verarbeitung mehrskaliger Bilder, wobei Bilder mit höheren Auflösungen von kleineren Netzwerkzweigen verarbeitet werden, um Rechenkosten und Leistung auszugleichen. Um Informationen von verschiedenen räumlichen Skalen zu integrieren, schlagen wir außerdem einen neuartigen Mechanismus zur Querzweig-Merkmalinteraktion vor. Zur Validierung von PIIP wenden wir es auf verschiedene Wahrnehmungsmodelle und ein repräsentatives multimodales großes Sprachmodell namens LLaVA an und führen umfangreiche Experimente zu verschiedenen Aufgaben wie Objekterkennung, Segmentierung, Bildklassifizierung und multimodalem Verständnis durch. PIIP erzielt eine überlegene Leistung im Vergleich zu Ein-Zweig- und bestehenden Mehrskalenansätzen bei geringeren Rechenkosten. Bei Anwendung auf InternViT-6B, einem groß angelegten Vision-Grundlagenmodell, kann PIIP die Leistung bei Erkennung und Segmentierung um 1%-2% verbessern, wobei nur 40%-60% der ursprünglichen Berechnung benötigt werden, und erreicht schließlich 60,0 Box-AP auf MS COCO und 59,7 mIoU auf ADE20K. Für multimodales Verständnis erreicht unser PIIP-LLaVA eine Genauigkeit von 73,0% bei TextVQA und 74,5% bei MMBench mit nur 2,8 M Trainingsdaten. Unser Code ist unter https://github.com/OpenGVLab/PIIP verfügbar.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary