Redes de Pirâmide de Imagens Invertidas de Parâmetros para Percepção Visual e Compreensão Multimodal
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Autores: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Resumo
As pirâmides de imagem são amplamente adotadas nos métodos de alto desempenho para obter características em múltiplas escalas para uma percepção visual e compreensão precisas. No entanto, as pirâmides de imagem atuais utilizam o mesmo modelo de grande escala para processar múltiplas resoluções de imagens, resultando em um custo computacional significativo. Para enfrentar esse desafio, propomos uma nova arquitetura de rede, chamada Redes de Pirâmide de Imagem com Parâmetros Invertidos (PIIP). Especificamente, o PIIP utiliza modelos pré-treinados (ViTs ou CNNs) como ramos para processar imagens em várias escalas, onde imagens de resoluções mais altas são processadas por ramos de rede menores para equilibrar o custo computacional e o desempenho. Para integrar informações de diferentes escalas espaciais, propomos ainda um novo mecanismo de interação de características entre ramos. Para validar o PIIP, aplicamo-lo a vários modelos de percepção e a um modelo de linguagem multimodal representativo chamado LLaVA, e realizamos experimentos extensivos em várias tarefas, como detecção de objetos, segmentação, classificação de imagens e compreensão multimodal. O PIIP alcança desempenho superior em comparação com abordagens de única ramificação e multi-resolução existentes, com menor custo computacional. Quando aplicado ao InternViT-6B, um modelo de visão em grande escala, o PIIP pode melhorar seu desempenho em 1%-2% em detecção e segmentação com apenas 40%-60% da computação original, alcançando finalmente 60,0 box AP no MS COCO e 59,7 mIoU no ADE20K. Para compreensão multimodal, nosso PIIP-LLaVA alcança 73,0% de precisão no TextVQA e 74,5% no MMBench com apenas 2,8M de dados de treinamento. Nosso código está disponível em https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary