iFormer: Integratie van ConvNet en Transformer voor Mobiele Applicaties
iFormer: Integrating ConvNet and Transformer for Mobile Application
January 26, 2025
Auteurs: Chuanyang Zheng
cs.AI
Samenvatting
We presenteren een nieuwe familie van mobiele hybride visienetwerken, genaamd iFormer, met de focus op het optimaliseren van latentie en nauwkeurigheid in mobiele toepassingen. iFormer integreert effectief de snelle lokale representatiecapaciteit van convolutie met de efficiënte wereldwijde modelleringsmogelijkheid van zelfaandacht. De lokale interacties zijn afgeleid van het transformeren van een standaard convolutienetwerk, d.w.z. ConvNeXt, om een meer lichtgewicht mobiel netwerk te ontwerpen. Onze nieuw geïntroduceerde mobiele modulatieaandacht verwijdert geheugenintensieve bewerkingen in MHA en maakt gebruik van een efficiënt modulatiemechanisme om de dynamische wereldwijde representatiecapaciteit te versterken. We voeren uitgebreide experimenten uit waaruit blijkt dat iFormer bestaande lichtgewicht netwerken overtreft bij verschillende taken. Opmerkelijk behaalt iFormer een indrukwekkende Top-1 nauwkeurigheid van 80,4% op ImageNet-1k met een latentie van slechts 1,10 ms op een iPhone 13, wat MobileNetV4 recentelijk voorgesteld overtreft onder vergelijkbare latentiebeperkingen. Bovendien toont onze methode significante verbeteringen in downstream taken, waaronder COCO-objectdetectie, instantiesegmentatie en ADE20k semantische segmentatie, terwijl het nog steeds een lage latentie behoudt op mobiele apparaten voor hoge-resolutie invoer in deze scenario's.
English
We present a new family of mobile hybrid vision networks, called iFormer,
with a focus on optimizing latency and accuracy on mobile applications. iFormer
effectively integrates the fast local representation capacity of convolution
with the efficient global modeling ability of self-attention. The local
interactions are derived from transforming a standard convolutional network,
i.e., ConvNeXt, to design a more lightweight mobile network. Our newly
introduced mobile modulation attention removes memory-intensive operations in
MHA and employs an efficient modulation mechanism to boost dynamic global
representational capacity. We conduct comprehensive experiments demonstrating
that iFormer outperforms existing lightweight networks across various tasks.
Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k
with a latency of only 1.10 ms on an iPhone 13, surpassing the recently
proposed MobileNetV4 under similar latency constraints. Additionally, our
method shows significant improvements in downstream tasks, including COCO
object detection, instance segmentation, and ADE20k semantic segmentation,
while still maintaining low latency on mobile devices for high-resolution
inputs in these scenarios.Summary
AI-Generated Summary