EMOv2: Spingendo i Confini del Modello di Visione da 5M
EMOv2: Pushing 5M Vision Model Frontier
December 9, 2024
Autori: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao
cs.AI
Abstract
Questo lavoro si concentra sullo sviluppo di modelli leggeri ed efficienti nei parametri per previsioni dense, bilanciando i parametri, le FLOPs e le prestazioni. Il nostro obiettivo è stabilire la nuova frontiera del modello leggero di magnitudine 5M su vari compiti successivi. Il Blocco Residuale Invertito (IRB) funge da infrastruttura per le CNN leggere, ma nessun controparte è stata riconosciuta dal design basato sull'attenzione. Il nostro lavoro ripensa l'infrastruttura leggera dell'efficiente IRB e dei componenti pratici nel Transformer da una prospettiva unificata, estendendo l'IRB basato su CNN ai modelli basati sull'attenzione e astrae un Blocco Meta Mobile a un residuo (MMBlock) per il design di modelli leggeri. Seguendo criteri di design puliti ma efficaci, deduciamo un moderno Blocco Mobile Residuo Invertito Migliorato (i2RMB) e miglioriamo un Modello Efficientemente Gerarchico (EMOv2) senza strutture complesse elaborate. Considerando la latenza impercettibile per gli utenti mobili durante il download di modelli con larghezza di banda 4G/5G e garantendo le prestazioni del modello, esaminiamo il limite superiore delle prestazioni dei modelli leggeri con una magnitudine di 5M. Esperimenti approfonditi su vari compiti di riconoscimento visivo, previsione densa e generazione di immagini dimostrano la superiorità del nostro EMOv2 rispetto ai metodi all'avanguardia, ad esempio, EMOv2-1M/2M/5M raggiungono il 72,3, 75,8 e 79,4 Top-1 che superano significativamente i modelli di pari ordine basati su CNN/Attenzione. Allo stesso tempo, EMOv2-5M dotato di RetinaNet raggiunge il 41,5 mAP per i compiti di rilevamento oggetti che supera il precedente EMO-5M di +2,6. Utilizzando una ricetta di addestramento più robusta, il nostro EMOv2-5M raggiunge infine un'accuratezza Top-1 del 82,9, che eleva le prestazioni dei modelli di magnitudine 5M a un nuovo livello. Il codice è disponibile su https://github.com/zhangzjn/EMOv2.
English
This work focuses on developing parameter-efficient and lightweight models
for dense predictions while trading off parameters, FLOPs, and performance. Our
goal is to set up the new frontier of the 5M magnitude lightweight model on
various downstream tasks. Inverted Residual Block (IRB) serves as the
infrastructure for lightweight CNNs, but no counterparts have been recognized
by attention-based design. Our work rethinks the lightweight infrastructure of
efficient IRB and practical components in Transformer from a unified
perspective, extending CNN-based IRB to attention-based models and abstracting
a one-residual Meta Mobile Block (MMBlock) for lightweight model design.
Following neat but effective design criterion, we deduce a modern Improved
Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient
MOdel (EMOv2) with no elaborate complex structures. Considering the
imperceptible latency for mobile users when downloading models under 4G/5G
bandwidth and ensuring model performance, we investigate the performance upper
limit of lightweight models with a magnitude of 5M. Extensive experiments on
various vision recognition, dense prediction, and image generation tasks
demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g.,
EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order
CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped
RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the
previous EMO-5M by +2.6. When employing the more robust training recipe, our
EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the
performance of 5M magnitude models to a new level. Code is available at
https://github.com/zhangzjn/EMOv2.Summary
AI-Generated Summary