PerCoV2: Verbesserte Ultra-Niedrigbitraten-Perzeptuelle Bildkompression mit Implizitem Hierarchischem Maskiertem Bildmodellierung
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
March 12, 2025
Autoren: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller
cs.AI
Zusammenfassung
Wir stellen PerCoV2 vor, ein neuartiges und offenes System zur ultra-niedrigbitratigen Wahrnehmungsbildkompression, das für Anwendungen mit begrenzter Bandbreite und Speicherkapazität entwickelt wurde. Aufbauend auf früheren Arbeiten von Careil et al. erweitert PerCoV2 die ursprüngliche Formulierung auf das Stable Diffusion 3-Ökosystem und verbessert die Effizienz der Entropiekodierung durch explizite Modellierung der diskreten Hyper-Latent-Bildverteilung. Zu diesem Zweck führen wir einen umfassenden Vergleich aktueller autoregressiver Methoden (VAR und MaskGIT) für die Entropiemodellierung durch und bewerten unseren Ansatz auf dem groß angelegten MSCOCO-30k-Benchmark. Im Vergleich zu früheren Arbeiten erreicht PerCoV2 (i) eine höhere Bildtreue bei noch niedrigeren Bitraten, während es eine wettbewerbsfähige wahrnehmungsbezogene Qualität beibehält, (ii) verfügt über einen hybriden Generierungsmodus für weitere Bitrateneinsparungen und (iii) basiert ausschließlich auf öffentlich zugänglichen Komponenten. Code und trainierte Modelle werden unter https://github.com/Nikolai10/PerCoV2 veröffentlicht.
English
We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image
compression system designed for bandwidth- and storage-constrained
applications. Building upon prior work by Careil et al., PerCoV2 extends the
original formulation to the Stable Diffusion 3 ecosystem and enhances entropy
coding efficiency by explicitly modeling the discrete hyper-latent image
distribution. To this end, we conduct a comprehensive comparison of recent
autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our
approach on the large-scale MSCOCO-30k benchmark. Compared to previous work,
PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while
maintaining competitive perceptual quality, (ii) features a hybrid generation
mode for further bit-rate savings, and (iii) is built solely on public
components. Code and trained models will be released at
https://github.com/Nikolai10/PerCoV2.Summary
AI-Generated Summary