Пирамидальные сети изображений с инвертированными параметрами для визуального восприятия и мультимодального понимания

Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

January 14, 2025
Авторы: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI

Аннотация

Изображенчатые пирамиды широко используются в передовых методах для получения мультимасштабных признаков для точного визуального восприятия и понимания. Однако текущие изображенчатые пирамиды используют одну и ту же модель большого масштаба для обработки нескольких разрешений изображений, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы предлагаем новую архитектуру сети, называемую Сети изображенчатых пирамид с инвертированными параметрами (PIIP). Конкретно, PIIP использует предварительно обученные модели (ViTs или CNN) в качестве ветвей для обработки мультимасштабных изображений, где изображения более высокого разрешения обрабатываются более маленькими сетевыми ветвями для балансировки вычислительных затрат и производительности. Для интеграции информации с различных пространственных масштабов мы дополнительно предлагаем новый механизм взаимодействия признаков между ветвями. Для проверки PIIP мы применяем его к различным моделям восприятия и представляем крупную мультимодальную модель обработки языка под названием LLaVA, и проводим обширные эксперименты по различным задачам, таким как обнаружение объектов, сегментация, классификация изображений и мультимодальное понимание. PIIP демонстрирует превосходную производительность по сравнению с одноветвевыми и существующими многоразрешенчатыми подходами с более низкими вычислительными затратами. Примененный к InternViT-6B, крупной модели основы зрения, PIIP может улучшить ее производительность на 1%-2% в обнаружении и сегментации с использованием только 40%-60% исходных вычислений, в конечном итоге достигнув 60.0 box AP на MS COCO и 59.7 mIoU на ADE20K. Для мультимодального понимания наш PIIP-LLaVA достигает 73.0% точности на TextVQA и 74.5% на MMBench с использованием только 2.8M обучающих данных. Наш код доступен по ссылке https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain multi-scale features for precise visual perception and understanding. However, current image pyramids use the same large-scale model to process multiple resolutions of images, leading to significant computational cost. To address this challenge, we propose a novel network architecture, called Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses pretrained models (ViTs or CNNs) as branches to process multi-scale images, where images of higher resolutions are processed by smaller network branches to balance computational cost and performance. To integrate information from different spatial scales, we further propose a novel cross-branch feature interaction mechanism. To validate PIIP, we apply it to various perception models and a representative multimodal large language model called LLaVA, and conduct extensive experiments on various tasks such as object detection, segmentation, image classification and multimodal understanding. PIIP achieves superior performance compared to single-branch and existing multi-resolution approaches with lower computational cost. When applied to InternViT-6B, a large-scale vision foundation model, PIIP can improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation, finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and 74.5% on MMBench with only 2.8M training data. Our code is released at https://github.com/OpenGVLab/PIIP.

Summary

AI-Generated Summary

Обзор статьи

Создана новая архитектура сети Parameter-Inverted Image Pyramid Networks (PIIP) для обработки мультимасштабных изображений с использованием предварительно обученных моделей, превосходя другие методы с меньшими вычислительными затратами и улучшая производительность. PIIP также успешно применяется в мультимодальном понимании данных.

Основной вклад

  • Предложена архитектура PIIP для обработки мультимасштабных изображений.
  • Механизм взаимодействия признаков между различными масштабами для интеграции информации.
  • Превосходство PIIP на задачах обнаружения объектов, сегментации, классификации и мультимодального понимания.

Контекст исследования

  • Исследование в области мультимодальных больших языковых моделей (MLLM).
  • Применение предварительно обученных моделей для понимания и генерации мультимодальных данных.
  • Использование модульной структуры с визионными кодировщиками в существующих MLLM.

Ключевые термины

Мультимасштабные изображения, предварительно обученные модели, мультимодальное понимание, архитектура сети, обнаружение объектов, сегментация, классификация, вычислительные затраты.

Фон

Исследование решает проблему вычислительной неэффективности традиционных методов обработки мультимасштабных изображений, предлагая новую архитектуру PIIP с использованием предварительно обученных моделей и механизмов взаимодействия признаков.

Пробел в исследованиях

  • Недостаточная эффективность традиционных методов пирамид изображений.
  • Необходимость баланса между вычислительными затратами и производительностью.
  • Отсутствие подходов, превосходящих существующие методы в мультимодальном понимании.

Технические препятствия

  • Необходимость интеграции информации с разных пространственных уровней.
  • Сложности в обработке мультимасштабных изображений эффективно.
  • Требования к оптимизации вычислительных процессов.

Предыдущие подходы

  • Использование модульной структуры с визионными кодировщиками в MLLM.
  • Применение традиционных методов пирамид изображений с ограниченной эффективностью.
  • Недостаточное внимание к балансу вычислительных затрат и производительности.

Методология

Исследование базируется на архитектуре PIIP, использующей предварительно обученные модели, гетерогенные архитектуры ViT-CNN и механизм взаимодействия признаков для обработки мультимасштабных изображений.

Теоретическая основа

  • Использование предварительно обученных моделей ViT и CNN.
  • Механизм взаимодействия признаков между различными масштабами изображений.
  • Построение эффективных пирамид изображений с разными параметрами моделей.

Техническая архитектура

  • Включение многоразрешенчных ветвей и их взаимодействие.
  • Применение предварительно обученных моделей для построения PIIP.
  • Использование проектора для мультимодального понимания в PIIP-LLaVA.

Детали реализации

  • Эксперименты с различными конфигурациями моделей PIIP.
  • Использование предварительно обученных голов классификации для задач классификации изображений.
  • Анализ визуализации внимания и спектра Фурье признаков.

Точки инновации

  • Баланс между вычислительными затратами и производительностью.
  • Превосходство в обработке мультимасштабных изображений.
  • Эффективное мультимодальное понимание данных.

Экспериментальная проверка

Эксперименты проводились на датасете MS COCO с использованием MMDetection для задач детекции объектов и сегментации экземпляров, сравнивая PIIP с другими моделями.

Настройка

  • Использование трех детекторов: Mask R-CNN, Cascade R-CNN и DINO.
  • Применение различных расписаний обучения и оконного внимания.
  • Сравнение вычислительных затрат и производительности с другими моделями.

Метрики

  • Сокращение вычислительных затрат на 47,5% и 38,0% в задачах детекции и сегментации объектов.
  • Улучшение производительности на 2,8% и 2,6% по сравнению с базовыми моделями.

Результаты

  • Улучшение точности и снижение вычислительных затрат.
  • Превосходство PIIP на задачах классификации и мультимодального понимания.
  • Преимущества моделей с разными архитектурами для разных разрешений изображений.

Сравнительный анализ

  • Превосходство PIIP-SBL и PIIP-TSB над другими моделями.
  • Улучшение производительности и точности при сопоставимых вычислительных затратах.

Влияние и выводы

Исследование демонстрирует эффективность и универсальность PIIP в обработке мультимасштабных изображений, а также предлагает рекомендации для дальнейшего развития исследований в области визуального и мультимодального вычисления.

Ключевые результаты

  • Превосходство PIIP в обработке изображений разных разрешений.
  • Снижение вычислительных затрат и улучшение производительности.
  • Успешное решение задач мультимодального понимания.

Ограничения

  • Необходимость дальнейшего исследования в области оптимизации моделей.
  • Возможные ограничения в применении PIIP к определенным типам данных.

Будущие направления

  • Исследование эффективности моделей на других датасетах и задачах.
  • Развитие методов визуализации и анализа внутренних механизмов моделей.

Практическое значение

  • Применение PIIP в реальных задачах обработки изображений.
  • Возможность использования PIIP для улучшения производительности и снижения затрат в различных областях.

Избранные Статьи

DeepSeek-R1: Стимулирование способности к рассуждениям в LLM с помощью обучения с подкреплением
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253745

Технический отчёт Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436411

МиниМакс-01: Масштабирование базовых моделей с механизмом молниеносного внимания
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252846

PDF72January 16, 2025