ChatPaper.aiChatPaper

Atlas: Multi-Scale-Attention verbessert die Modellierung von Bildern mit langem Kontext

Atlas: Multi-Scale Attention Improves Long Context Image Modeling

March 16, 2025
Autoren: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala
cs.AI

Zusammenfassung

Die effiziente Modellierung von massiven Bildern stellt eine langjährige Herausforderung im Bereich des maschinellen Lernens dar. Zu diesem Zweck führen wir Multi-Scale Attention (MSA) ein. MSA basiert auf zwei zentralen Ideen: (i) Mehrskalenrepräsentationen und (ii) bidirektionale Kommunikation zwischen Skalen. MSA erzeugt O(log N) Skalen, um das Bild über zunehmend gröbere Merkmale darzustellen, und nutzt Cross-Attention, um Informationen zwischen den Skalen zu propagieren. Anschließend stellen wir Atlas vor, eine neuartige neuronale Netzwerkarchitektur, die auf MSA basiert. Wir zeigen, dass Atlas den Kompromiss zwischen Rechenleistung und Modellierungsqualität bei langen Kontexten in einer hochauflösenden Variante von ImageNet 100 erheblich verbessert. Bei einer Auflösung von 1024px erreicht Atlas-B eine Genauigkeit von 91,04 %, was vergleichbar mit ConvNext-B (91,92 %) ist, während es 4,3-mal schneller ist. Atlas ist 2,95-mal schneller und 7,38 % besser als FasterViT sowie 2,25-mal schneller und 4,96 % besser als LongViT. Im Vergleich zu MambaVision-S erzielt Atlas-S bei 1024px, 2048px und 4096px eine um 5 %, 16 % bzw. 32 % höhere Genauigkeit, bei ähnlichen Laufzeiten. Der Code zur Reproduktion unserer Experimente sowie vortrainierte Modelle sind unter https://github.com/yalalab/atlas verfügbar.
English
Efficiently modeling massive images is a long-standing challenge in machine learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale communication. MSA creates O(log N) scales to represent the image across progressively coarser features and leverages cross-attention to propagate information across scales. We then introduce Atlas, a novel neural network architecture based on MSA. We demonstrate that Atlas significantly improves the compute-performance tradeoff of long-context image modeling in a high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves 91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster. Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96% better than LongViT. In comparisons against MambaVision-S, we find Atlas-S achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px respectively, while obtaining similar runtimes. Code for reproducing our experiments and pretrained models is available at https://github.com/yalalab/atlas.

Summary

AI-Generated Summary

PDF112March 19, 2025