Kolmogorov-Arnold-Aufmerksamkeit: Ist lernbare Aufmerksamkeit besser für Vision-Transformer?
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
March 13, 2025
Autoren: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta
cs.AI
Zusammenfassung
Kolmogorov-Arnold-Netze (KANs) sind eine bemerkenswerte Innovation, die aus lernbaren Aktivierungsfunktionen besteht und das Potenzial hat, komplexere Beziehungen aus Daten zu erfassen. Obwohl KANs nützlich sind, um symbolische Darstellungen zu finden und das kontinuierliche Lernen eindimensionaler Funktionen zu ermöglichen, bleibt ihre Wirksamkeit bei verschiedenen Aufgaben des maschinellen Lernens (ML), wie beispielsweise in der Bildverarbeitung, fraglich. Derzeit werden KANs eingesetzt, indem sie Multilayer-Perzeptronen (MLPs) in tiefen Netzwerkarchitekturen ersetzen, einschließlich fortschrittlicher Architekturen wie Vision Transformers (ViTs). In diesem Papier sind wir die ersten, die ein allgemeines lernbares Kolmogorov-Arnold-Attention (KArAt) für Standard-ViTs entwerfen, das auf jeder Wahl von Basisfunktionen operieren kann. Die hohen Rechen- und Speicherkosten beim Training haben uns jedoch dazu veranlasst, eine modularere Version vorzuschlagen, und wir haben eine spezielle lernbare Attention entwickelt, die Fourier-KArAt genannt wird. Fourier-KArAt und seine Varianten übertreffen entweder ihre ViT-Pendants oder zeigen vergleichbare Leistung auf den Datensätzen CIFAR-10, CIFAR-100 und ImageNet-1K. Wir analysieren die Leistung und Generalisierungsfähigkeit dieser Architekturen, indem wir ihre Verlustlandschaften, Gewichtsverteilungen, Optimiererpfade, Attention-Visualisierungen und spektrale Verhaltensweisen untersuchen und sie mit Standard-ViTs vergleichen. Das Ziel dieses Papiers ist es nicht, parameter- und recheneffiziente Attention zu entwickeln, sondern die Gemeinschaft dazu anzuregen, KANs in Verbindung mit fortschrittlicheren Architekturen zu erforschen, die ein sorgfältiges Verständnis lernbarer Aktivierungsfunktionen erfordern. Unser Open-Source-Code und Implementierungsdetails sind verfügbar unter: https://subhajitmaity.me/KArAt
English
Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of
learnable activation functions with the potential to capture more complex
relationships from data. Although KANs are useful in finding symbolic
representations and continual learning of one-dimensional functions, their
effectiveness in diverse machine learning (ML) tasks, such as vision, remains
questionable. Presently, KANs are deployed by replacing multilayer perceptrons
(MLPs) in deep network architectures, including advanced architectures such as
vision Transformers (ViTs). In this paper, we are the first to design a general
learnable Kolmogorov-Arnold Attention (KArAt) for vanilla ViTs that can operate
on any choice of basis. However, the computing and memory costs of training
them motivated us to propose a more modular version, and we designed particular
learnable attention, called Fourier-KArAt. Fourier-KArAt and its variants
either outperform their ViT counterparts or show comparable performance on
CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We dissect these architectures'
performance and generalization capacity by analyzing their loss landscapes,
weight distributions, optimizer path, attention visualization, and spectral
behavior, and contrast them with vanilla ViTs. The goal of this paper is not to
produce parameter- and compute-efficient attention, but to encourage the
community to explore KANs in conjunction with more advanced architectures that
require a careful understanding of learnable activations. Our open-source code
and implementation details are available on: https://subhajitmaity.me/KArAtSummary
AI-Generated Summary