Convoluzione Dinamica in Frequenza per la Predizione Densa di Immagini

Abstract

Mentre la Convoluzione Dinamica (DY-Conv) ha dimostrato prestazioni promettenti grazie alla selezione adattiva dei pesi attraverso l'uso di pesi paralleli multipli combinati con un meccanismo di attenzione, la risposta in frequenza di questi pesi tende a mostrare un'elevata similarità, risultando in costi parametrici elevati ma con un'adattabilità limitata. In questo lavoro, introduciamo la Convoluzione Dinamica in Frequenza (FDConv), un approccio innovativo che mitiga queste limitazioni apprendendo un budget fisso di parametri nel dominio di Fourier. FDConv divide questo budget in gruppi basati sulla frequenza con indici di Fourier disgiunti, consentendo la costruzione di pesi diversificati in frequenza senza aumentare il costo parametrico. Per ulteriormente migliorare l'adattabilità, proponiamo la Modulazione Spaziale del Kernel (KSM) e la Modulazione della Banda di Frequenza (FBM). KSM regola dinamicamente la risposta in frequenza di ciascun filtro a livello spaziale, mentre FBM scompone i pesi in bande di frequenza distinte nel dominio della frequenza e le modula dinamicamente in base al contenuto locale. Esperimenti estesi su rilevamento di oggetti, segmentazione e classificazione convalidano l'efficacia di FDConv. Dimostriamo che, applicato a ResNet-50, FDConv raggiunge prestazioni superiori con un modesto aumento di +3,6M parametri, superando metodi precedenti che richiedono aumenti sostanziali nei budget parametrici (ad esempio, CondConv +90M, KW +76,5M). Inoltre, FDConv si integra senza soluzione di continuità in una varietà di architetture, tra cui ConvNeXt e Swin-Transformer, offrendo una soluzione flessibile ed efficiente per i compiti visivi moderni. Il codice è reso disponibile pubblicamente all'indirizzo https://github.com/Linwei-Chen/FDConv.

English

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

Convoluzione Dinamica in Frequenza per la Predizione Densa di Immagini

Frequency Dynamic Convolution for Dense Image Prediction

Abstract

Summary

Support

Support