iFormer: Integration von ConvNet und Transformer für mobile Anwendungen
iFormer: Integrating ConvNet and Transformer for Mobile Application
January 26, 2025
Autoren: Chuanyang Zheng
cs.AI
Zusammenfassung
Wir präsentieren eine neue Familie von mobilen hybriden Vision-Netzwerken, genannt iFormer, mit dem Schwerpunkt auf der Optimierung von Latenz und Genauigkeit bei mobilen Anwendungen. iFormer integriert effektiv die schnelle lokale Repräsentationskapazität von Faltungen mit der effizienten globalen Modellierungsfähigkeit von Selbst-Aufmerksamkeit. Die lokalen Interaktionen werden durch die Umwandlung eines Standard-Faltungsnetzwerks, d.h. ConvNeXt, abgeleitet, um ein leichteres mobiles Netzwerk zu entwerfen. Unsere neu eingeführte mobile Modulationsaufmerksamkeit entfernt speicherintensive Operationen in MHA und verwendet einen effizienten Modulationsmechanismus, um die dynamische globale Repräsentationskapazität zu steigern. Wir führen umfassende Experimente durch, die zeigen, dass iFormer bestehende leichte Netzwerke in verschiedenen Aufgaben übertrifft. Insbesondere erreicht iFormer eine beeindruckende Top-1 Genauigkeit von 80,4\% auf ImageNet-1k mit einer Latenz von nur 1,10 ms auf einem iPhone 13 und übertrifft dabei die kürzlich vorgeschlagene MobileNetV4 unter ähnlichen Latenzbeschränkungen. Darüber hinaus zeigt unsere Methode signifikante Verbesserungen in nachgelagerten Aufgaben, einschließlich COCO-Objekterkennung, Instanzsegmentierung und ADE20k semantischer Segmentierung, während sie gleichzeitig eine niedrige Latenz auf mobilen Geräten für hochauflösende Eingaben in diesen Szenarien beibehält.
English
We present a new family of mobile hybrid vision networks, called iFormer,
with a focus on optimizing latency and accuracy on mobile applications. iFormer
effectively integrates the fast local representation capacity of convolution
with the efficient global modeling ability of self-attention. The local
interactions are derived from transforming a standard convolutional network,
i.e., ConvNeXt, to design a more lightweight mobile network. Our newly
introduced mobile modulation attention removes memory-intensive operations in
MHA and employs an efficient modulation mechanism to boost dynamic global
representational capacity. We conduct comprehensive experiments demonstrating
that iFormer outperforms existing lightweight networks across various tasks.
Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k
with a latency of only 1.10 ms on an iPhone 13, surpassing the recently
proposed MobileNetV4 under similar latency constraints. Additionally, our
method shows significant improvements in downstream tasks, including COCO
object detection, instance segmentation, and ADE20k semantic segmentation,
while still maintaining low latency on mobile devices for high-resolution
inputs in these scenarios.Summary
AI-Generated Summary