Compressione appresa per l'apprendimento compresso
Learned Compression for Compressed Learning
December 12, 2024
Autori: Dan Jacobellis, Neeraja J. Yadwadkar
cs.AI
Abstract
I sensori moderni producono flussi di dati ad alta risoluzione sempre più ricchi. A causa delle limitazioni delle risorse, i sistemi di apprendimento automatico scartano la grande maggioranza di queste informazioni tramite la riduzione della risoluzione. L'apprendimento nel dominio compresso consente ai modelli di operare su rappresentazioni latenti compatte, consentendo una risoluzione effettiva più elevata per lo stesso budget. Tuttavia, i sistemi di compressione esistenti non sono ideali per l'apprendimento compresso. La codifica della trasformata lineare e i sistemi di compressione appresi end-to-end riducono il bitrate, ma non riducono uniformemente la dimensionalità; pertanto, non aumentano in modo significativo l'efficienza. Gli autoencoder generativi riducono la dimensionalità, ma i loro obiettivi avversari o percettivi portano a una significativa perdita di informazioni. Per affrontare queste limitazioni, presentiamo WaLLoC (Wavelet Learned Lossy Compression), un'architettura di codec neurale che combina la codifica della trasformata lineare con gli autoencoder non lineari riduttori di dimensionalità. WaLLoC inserisce un autoencoder asimmetrico superficiale e un collo di bottiglia di entropia tra una trasformata a pacchetto di wavelet invertibile. Su diversi parametri chiave, WaLLoC supera gli autoencoder utilizzati nei modelli di diffusione latente all'avanguardia. WaLLoC non richiede perdite percettive o avversarie per rappresentare dettagli ad alta frequenza, offrendo compatibilità con modalità oltre alle immagini RGB e all'audio stereo. L'encoder di WaLLoC è composto quasi interamente da operazioni lineari, rendendolo eccezionalmente efficiente e adatto per il calcolo mobile, il rilevamento remoto e l'apprendimento diretto dai dati compressi. Dimostriamo la capacità di WaLLoC per l'apprendimento nel dominio compresso su diversi compiti, inclusa la classificazione delle immagini, la colorazione, la comprensione dei documenti e la separazione delle sorgenti musicali. Il nostro codice, gli esperimenti e i codec audio e immagine preaddestrati sono disponibili su https://ut-sysml.org/walloc.
English
Modern sensors produce increasingly rich streams of high-resolution data. Due
to resource constraints, machine learning systems discard the vast majority of
this information via resolution reduction. Compressed-domain learning allows
models to operate on compact latent representations, allowing higher effective
resolution for the same budget. However, existing compression systems are not
ideal for compressed learning. Linear transform coding and end-to-end learned
compression systems reduce bitrate, but do not uniformly reduce dimensionality;
thus, they do not meaningfully increase efficiency. Generative autoencoders
reduce dimensionality, but their adversarial or perceptual objectives lead to
significant information loss. To address these limitations, we introduce WaLLoC
(Wavelet Learned Lossy Compression), a neural codec architecture that combines
linear transform coding with nonlinear dimensionality-reducing autoencoders.
WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck
between an invertible wavelet packet transform. Across several key metrics,
WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion
models. WaLLoC does not require perceptual or adversarial losses to represent
high-frequency detail, providing compatibility with modalities beyond RGB
images and stereo audio. WaLLoC's encoder consists almost entirely of linear
operations, making it exceptionally efficient and suitable for mobile
computing, remote sensing, and learning directly from compressed data. We
demonstrate WaLLoC's capability for compressed-domain learning across several
tasks, including image classification, colorization, document understanding,
and music source separation. Our code, experiments, and pre-trained audio and
image codecs are available at https://ut-sysml.org/wallocSummary
AI-Generated Summary