ChatPaper.aiChatPaper

EMOv2: 5백만 개의 비전 모델 프론티어를 확장하다

EMOv2: Pushing 5M Vision Model Frontier

December 9, 2024
저자: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI

초록

본 연구는 파라미터 효율적이고 가벼운 모델을 개발하는 데 초점을 맞추며, 파라미터, FLOP 및 성능을 교환하면서 밀도 예측을 위한 모델을 개발합니다. 우리의 목표는 다양한 하향 작업에서 5M 규모의 가벼운 모델의 새로운 지평을 제시하는 것입니다. 역 이웃 잔여 블록(IRB)은 가벼운 CNN의 기반이 되지만, 주의 기반 설계에 해당하는 것은 인정되지 않았습니다. 본 연구는 효율적인 IRB의 가벼운 기반과 트랜스포머의 실용적인 구성 요소를 통합적인 관점에서 재고하며, CNN 기반 IRB를 주의 기반 모델로 확장하고 가벼운 모델 설계를 위해 하나의 잔여 메타 모바일 블록(MMBlock)을 추상화합니다. 깔끔하고 효과적인 설계 기준을 따라, 현대화된 개선된 역 이웃 잔여 모바일 블록(i2RMB)을 유도하고, 복잡한 구조 없이 계층적 효율적 모델(EMOv2)을 개선합니다. 4G/5G 대역폭에서 모델을 다운로드할 때 모바일 사용자에게 미미한 대기 시간을 고려하고 모델 성능을 보장하기 위해, 우리는 5M 규모의 가벼운 모델의 성능 상한선을 조사합니다. 다양한 비전 인식, 밀도 예측 및 이미지 생성 작업에 대한 광범위한 실험은 우리의 EMOv2가 최첨단 방법에 비해 우월함을 입증합니다. 예를 들어, EMOv2-1M/2M/5M은 각각 72.3, 75.8 및 79.4의 Top-1을 달성하여 동등한 순서의 CNN-/주의 기반 모델을 크게 능가합니다. 동시에, EMOv2-5M이 장착된 RetinaNet은 물체 감지 작업에서 41.5의 mAP를 달성하여 이전 EMO-5M보다 +2.6을 능가합니다. 더 견고한 훈련 레시피를 적용할 때, 우리의 EMOv2-5M은 마침내 82.9의 Top-1 정확도를 달성하여 5M 규모 모델의 성능을 새로운 수준으로 끌어올립니다. 코드는 https://github.com/zhangzjn/EMOv2에서 확인할 수 있습니다.
English
This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.

Summary

AI-Generated Summary

PDF132December 11, 2024