EfficientViM: Vision Mamba Efficient con Mixer di Stato Nascosto basato sulla Dualità dello Spazio di Stato
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
November 22, 2024
Autori: Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim
cs.AI
Abstract
Per il deployment delle reti neurali in ambienti con risorse limitate, lavori precedenti hanno costruito architetture leggere con convoluzione e attenzione per catturare rispettivamente dipendenze locali e globali. Recentemente, il modello dello spazio di stato è emerso come un'interazione di token globale efficace con il suo favorevole costo computazionale lineare nel numero di token. Tuttavia, sono state esplorate meno backbones vision efficienti costruiti con SSM. In questo articolo, presentiamo Efficient Vision Mamba (EfficientViM), una nuova architettura costruita sulla dualità dello spazio di stato basata sul mixer dello stato nascosto (HSM-SSD) che cattura efficientemente le dipendenze globali con un costo computazionale ulteriormente ridotto. Nel livello HSM-SSD, ridisegniamo il precedente livello SSD per abilitare l'operazione di mixing dei canali all'interno degli stati nascosti. Inoltre, proponiamo una fusione multi-stadio degli stati nascosti per rafforzare ulteriormente il potere di rappresentazione degli stati nascosti, e forniamo il design che allevia il collo di bottiglia causato dalle operazioni legate alla memoria. Di conseguenza, la famiglia EfficientViM raggiunge un nuovo compromesso velocità-accuratezza all'avanguardia su ImageNet-1k, offrendo fino a un miglioramento delle prestazioni del 0,7% rispetto al secondo miglior modello SHViT con una maggiore velocità. Inoltre, osserviamo significativi miglioramenti nella throughput e nell'accuratezza rispetto ai lavori precedenti, quando si ridimensionano le immagini o si utilizza il training di distillazione. Il codice è disponibile su https://github.com/mlvlab/EfficientViM.
English
For the deployment of neural networks in resource-constrained environments,
prior works have built lightweight architectures with convolution and attention
for capturing local and global dependencies, respectively. Recently, the state
space model has emerged as an effective global token interaction with its
favorable linear computational cost in the number of tokens. Yet, efficient
vision backbones built with SSM have been explored less. In this paper, we
introduce Efficient Vision Mamba (EfficientViM), a novel architecture built on
hidden state mixer-based state space duality (HSM-SSD) that efficiently
captures global dependencies with further reduced computational cost. In the
HSM-SSD layer, we redesign the previous SSD layer to enable the channel mixing
operation within hidden states. Additionally, we propose multi-stage hidden
state fusion to further reinforce the representation power of hidden states,
and provide the design alleviating the bottleneck caused by the memory-bound
operations. As a result, the EfficientViM family achieves a new
state-of-the-art speed-accuracy trade-off on ImageNet-1k, offering up to a 0.7%
performance improvement over the second-best model SHViT with faster speed.
Further, we observe significant improvements in throughput and accuracy
compared to prior works, when scaling images or employing distillation
training. Code is available at https://github.com/mlvlab/EfficientViM.Summary
AI-Generated Summary