Пирамидальные сети изображений с инвертированными параметрами для визуального восприятия и мультимодального понимания
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Авторы: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Аннотация
Изображенчатые пирамиды широко используются в передовых методах для получения мультимасштабных признаков для точного визуального восприятия и понимания. Однако текущие изображенчатые пирамиды используют одну и ту же модель большого масштаба для обработки нескольких разрешений изображений, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы предлагаем новую архитектуру сети, называемую Сети изображенчатых пирамид с инвертированными параметрами (PIIP). Конкретно, PIIP использует предварительно обученные модели (ViTs или CNN) в качестве ветвей для обработки мультимасштабных изображений, где изображения более высокого разрешения обрабатываются более маленькими сетевыми ветвями для балансировки вычислительных затрат и производительности. Для интеграции информации с различных пространственных масштабов мы дополнительно предлагаем новый механизм взаимодействия признаков между ветвями. Для проверки PIIP мы применяем его к различным моделям восприятия и представляем крупную мультимодальную модель обработки языка под названием LLaVA, и проводим обширные эксперименты по различным задачам, таким как обнаружение объектов, сегментация, классификация изображений и мультимодальное понимание. PIIP демонстрирует превосходную производительность по сравнению с одноветвевыми и существующими многоразрешенчатыми подходами с более низкими вычислительными затратами. Примененный к InternViT-6B, крупной модели основы зрения, PIIP может улучшить ее производительность на 1%-2% в обнаружении и сегментации с использованием только 40%-60% исходных вычислений, в конечном итоге достигнув 60.0 box AP на MS COCO и 59.7 mIoU на ADE20K. Для мультимодального понимания наш PIIP-LLaVA достигает 73.0% точности на TextVQA и 74.5% на MMBench с использованием только 2.8M обучающих данных. Наш код доступен по ссылке https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary