Frequenzdynamische Faltung für dichte Bildvorhersage
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Autoren: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Zusammenfassung
Während Dynamische Faltung (DY-Conv) vielversprechende Leistungen gezeigt hat, indem sie die adaptive Gewichtsauswahl durch mehrere parallele Gewichte in Kombination mit einem Aufmerksamkeitsmechanismus ermöglicht, neigt die Frequenzantwort dieser Gewichte dazu, eine hohe Ähnlichkeit aufzuweisen, was zu hohen Parameterkosten, aber begrenzter Anpassungsfähigkeit führt. In dieser Arbeit stellen wir Frequenzdynamische Faltung (FDConv) vor, einen neuartigen Ansatz, der diese Einschränkungen durch das Lernen eines festen Parameterbudgets im Fourier-Bereich mildert. FDConv teilt dieses Budget in frequenzbasierte Gruppen mit disjunkten Fourier-Indizes auf, wodurch die Konstruktion von frequenzdiversen Gewichten ohne Erhöhung der Parameterkosten ermöglicht wird. Um die Anpassungsfähigkeit weiter zu verbessern, schlagen wir Kernel-Spatial-Modulation (KSM) und Frequency-Band-Modulation (FBM) vor. KSM passt die Frequenzantwort jedes Filters auf der räumlichen Ebene dynamisch an, während FBM die Gewichte im Frequenzbereich in verschiedene Frequenzbänder zerlegt und sie basierend auf dem lokalen Inhalt dynamisch moduliert. Umfangreiche Experimente zur Objekterkennung, Segmentierung und Klassifizierung bestätigen die Wirksamkeit von FDConv. Wir zeigen, dass FDConv, wenn es auf ResNet-50 angewendet wird, eine überlegene Leistung mit einem moderaten Anstieg von +3,6M Parametern erzielt und dabei frühere Methoden übertrifft, die erhebliche Erhöhungen der Parameterbudgets erfordern (z.B. CondConv +90M, KW +76,5M). Darüber hinaus integriert sich FDConv nahtlos in eine Vielzahl von Architekturen, einschließlich ConvNeXt und Swin-Transformer, und bietet eine flexible und effiziente Lösung für moderne Vision-Aufgaben. Der Code ist öffentlich unter https://github.com/Linwei-Chen/FDConv verfügbar.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary