LSNet: Vedi Grande, Concentrati sul Piccolo
LSNet: See Large, Focus Small
March 29, 2025
Autori: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
cs.AI
Abstract
Le architetture di reti per la visione, tra cui le Reti Neurali Convoluzionali e i Vision Transformer, hanno fatto avanzare significativamente il campo della visione artificiale. Tuttavia, i loro calcoli complessi pongono sfide per il dispiegamento pratico, specialmente nelle applicazioni in tempo reale. Per affrontare questo problema, i ricercatori hanno esplorato varie architetture di reti leggere ed efficienti. Tuttavia, i modelli leggeri esistenti si basano principalmente su meccanismi di self-attention e convoluzioni per il mixing dei token. Questa dipendenza introduce limitazioni in termini di efficacia ed efficienza nei processi di percezione e aggregazione delle reti leggere, ostacolando il bilanciamento tra prestazioni ed efficienza con budget computazionali limitati. In questo articolo, traiamo ispirazione dalla capacità visiva eteroscala dinamica intrinseca nel sistema visivo umano efficiente e proponiamo una strategia "Vedi Grande, Concentrati sul Piccolo" per la progettazione di reti visive leggere. Introduciamo la convoluzione LS (Large-Small), che combina la percezione a kernel grande e l'aggregazione a kernel piccolo. Essa può catturare efficientemente un'ampia gamma di informazioni percettive e ottenere un'aggregazione precisa delle caratteristiche per rappresentazioni visive dinamiche e complesse, consentendo così un'elaborazione competente delle informazioni visive. Basandoci sulla convoluzione LS, presentiamo LSNet, una nuova famiglia di modelli leggeri. Esperimenti estensivi dimostrano che LSNet raggiunge prestazioni e efficienza superiori rispetto alle reti leggere esistenti in varie attività di visione. Codici e modelli sono disponibili su https://github.com/jameslahm/lsnet.
English
Vision network designs, including Convolutional Neural Networks and Vision
Transformers, have significantly advanced the field of computer vision. Yet,
their complex computations pose challenges for practical deployments,
particularly in real-time applications. To tackle this issue, researchers have
explored various lightweight and efficient network designs. However, existing
lightweight models predominantly leverage self-attention mechanisms and
convolutions for token mixing. This dependence brings limitations in
effectiveness and efficiency in the perception and aggregation processes of
lightweight networks, hindering the balance between performance and efficiency
under limited computational budgets. In this paper, we draw inspiration from
the dynamic heteroscale vision ability inherent in the efficient human vision
system and propose a ``See Large, Focus Small'' strategy for lightweight vision
network design. We introduce LS (Large-Small) convolution,
which combines large-kernel perception and small-kernel aggregation. It can
efficiently capture a wide range of perceptual information and achieve precise
feature aggregation for dynamic and complex visual representations, thus
enabling proficient processing of visual information. Based on LS convolution,
we present LSNet, a new family of lightweight models. Extensive experiments
demonstrate that LSNet achieves superior performance and efficiency over
existing lightweight networks in various vision tasks. Codes and models are
available at https://github.com/jameslahm/lsnet.Summary
AI-Generated Summary