ChatPaper.aiChatPaper

iFormer: 모바일 애플리케이션을 위한 ConvNet과 Transformer 통합

iFormer: Integrating ConvNet and Transformer for Mobile Application

January 26, 2025
저자: Chuanyang Zheng
cs.AI

초록

저희는 iFormer라는 새로운 모바일 하이브리드 비전 네트워크 패밀리를 소개합니다. 이 네트워크는 모바일 애플리케이션에서의 지연 시간과 정확도를 최적화하는 데 초점을 맞추었습니다. iFormer는 효율적으로 합성곱의 빠른 로컬 표현 능력을 셀프 어텐션의 효율적인 전역 모델링 능력과 통합합니다. 로컬 상호작용은 표준 컨볼루션 네트워크인 ConvNeXt를 변형하여 더 가벼운 모바일 네트워크를 설계함으로써 유도됩니다. 우리가 새롭게 소개한 모바일 변조 어텐션은 MHA의 메모리 집약적인 작업을 제거하고 효율적인 변조 메커니즘을 활용하여 동적 전역 표현 능력을 향상시킵니다. 저희는 iFormer가 다양한 작업에서 기존의 가벼운 네트워크를 능가하는 것을 보여주는 포괄적인 실험을 실시했습니다. 특히 iFormer는 iPhone 13에서 1.10ms의 지연 시간으로 ImageNet-1k에서 80.4%의 높은 Top-1 정확도를 달성하여 최근 제안된 MobileNetV4를 비슷한 지연 제약 조건 하에서 능가합니다. 추가적으로, 저희 방법은 COCO 객체 검출, 인스턴스 분할 및 ADE20k 시맨틱 분할을 포함한 하위 작업에서 상당한 개선을 보여주며, 이러한 시나리오에서 고해상도 입력에 대해 모바일 장치에서 낮은 지연 시간을 유지합니다.
English
We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, i.e., ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

Summary

AI-Generated Summary

PDF122January 28, 2025