Atlas: Multi-Scale-Attention verbessert die Modellierung von Bildern mit langem Kontext
Atlas: Multi-Scale Attention Improves Long Context Image Modeling
March 16, 2025
Autoren: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala
cs.AI
Zusammenfassung
Die effiziente Modellierung von massiven Bildern stellt eine langjährige Herausforderung im Bereich des maschinellen Lernens dar. Zu diesem Zweck führen wir Multi-Scale Attention (MSA) ein. MSA basiert auf zwei zentralen Ideen: (i) Mehrskalenrepräsentationen und (ii) bidirektionale Kommunikation zwischen Skalen. MSA erzeugt O(log N) Skalen, um das Bild über zunehmend gröbere Merkmale darzustellen, und nutzt Cross-Attention, um Informationen zwischen den Skalen zu propagieren. Anschließend stellen wir Atlas vor, eine neuartige neuronale Netzwerkarchitektur, die auf MSA basiert. Wir zeigen, dass Atlas den Kompromiss zwischen Rechenleistung und Modellierungsqualität bei langen Kontexten in einer hochauflösenden Variante von ImageNet 100 erheblich verbessert. Bei einer Auflösung von 1024px erreicht Atlas-B eine Genauigkeit von 91,04 %, was vergleichbar mit ConvNext-B (91,92 %) ist, während es 4,3-mal schneller ist. Atlas ist 2,95-mal schneller und 7,38 % besser als FasterViT sowie 2,25-mal schneller und 4,96 % besser als LongViT. Im Vergleich zu MambaVision-S erzielt Atlas-S bei 1024px, 2048px und 4096px eine um 5 %, 16 % bzw. 32 % höhere Genauigkeit, bei ähnlichen Laufzeiten. Der Code zur Reproduktion unserer Experimente sowie vortrainierte Modelle sind unter https://github.com/yalalab/atlas verfügbar.
English
Efficiently modeling massive images is a long-standing challenge in machine
learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on
two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale
communication. MSA creates O(log N) scales to represent the image across
progressively coarser features and leverages cross-attention to propagate
information across scales. We then introduce Atlas, a novel neural network
architecture based on MSA. We demonstrate that Atlas significantly improves the
compute-performance tradeoff of long-context image modeling in a
high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves
91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster.
Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96%
better than LongViT. In comparisons against MambaVision-S, we find Atlas-S
achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px
respectively, while obtaining similar runtimes. Code for reproducing our
experiments and pretrained models is available at
https://github.com/yalalab/atlas.Summary
AI-Generated Summary