Convoluzione Dinamica in Frequenza per la Predizione Densa di Immagini
Frequency Dynamic Convolution for Dense Image Prediction
March 24, 2025
Autori: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
cs.AI
Abstract
Mentre la Convoluzione Dinamica (DY-Conv) ha dimostrato prestazioni promettenti grazie alla selezione adattiva dei pesi attraverso l'uso di pesi paralleli multipli combinati con un meccanismo di attenzione, la risposta in frequenza di questi pesi tende a mostrare un'elevata similarità, risultando in costi parametrici elevati ma con un'adattabilità limitata. In questo lavoro, introduciamo la Convoluzione Dinamica in Frequenza (FDConv), un approccio innovativo che mitiga queste limitazioni apprendendo un budget fisso di parametri nel dominio di Fourier. FDConv divide questo budget in gruppi basati sulla frequenza con indici di Fourier disgiunti, consentendo la costruzione di pesi diversificati in frequenza senza aumentare il costo parametrico. Per ulteriormente migliorare l'adattabilità, proponiamo la Modulazione Spaziale del Kernel (KSM) e la Modulazione della Banda di Frequenza (FBM). KSM regola dinamicamente la risposta in frequenza di ciascun filtro a livello spaziale, mentre FBM scompone i pesi in bande di frequenza distinte nel dominio della frequenza e le modula dinamicamente in base al contenuto locale. Esperimenti estesi su rilevamento di oggetti, segmentazione e classificazione convalidano l'efficacia di FDConv. Dimostriamo che, applicato a ResNet-50, FDConv raggiunge prestazioni superiori con un modesto aumento di +3,6M parametri, superando metodi precedenti che richiedono aumenti sostanziali nei budget parametrici (ad esempio, CondConv +90M, KW +76,5M). Inoltre, FDConv si integra senza soluzione di continuità in una varietà di architetture, tra cui ConvNeXt e Swin-Transformer, offrendo una soluzione flessibile ed efficiente per i compiti visivi moderni. Il codice è reso disponibile pubblicamente all'indirizzo https://github.com/Linwei-Chen/FDConv.
English
While Dynamic Convolution (DY-Conv) has shown promising performance by
enabling adaptive weight selection through multiple parallel weights combined
with an attention mechanism, the frequency response of these weights tends to
exhibit high similarity, resulting in high parameter costs but limited
adaptability. In this work, we introduce Frequency Dynamic Convolution
(FDConv), a novel approach that mitigates these limitations by learning a fixed
parameter budget in the Fourier domain. FDConv divides this budget into
frequency-based groups with disjoint Fourier indices, enabling the construction
of frequency-diverse weights without increasing the parameter cost. To further
enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency
Band Modulation (FBM). KSM dynamically adjusts the frequency response of each
filter at the spatial level, while FBM decomposes weights into distinct
frequency bands in the frequency domain and modulates them dynamically based on
local content. Extensive experiments on object detection, segmentation, and
classification validate the effectiveness of FDConv. We demonstrate that when
applied to ResNet-50, FDConv achieves superior performance with a modest
increase of +3.6M parameters, outperforming previous methods that require
substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M).
Moreover, FDConv seamlessly integrates into a variety of architectures,
including ConvNeXt, Swin-Transformer, offering a flexible and efficient
solution for modern vision tasks. The code is made publicly available at
https://github.com/Linwei-Chen/FDConv.Summary
AI-Generated Summary