„Hauptkomponenten“ ermöglichen eine neue Bildsprache
"Principal Components" Enable A New Language of Images
March 11, 2025
Autoren: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI
Zusammenfassung
Wir stellen ein neuartiges Framework zur visuellen Tokenisierung vor, das eine beweisbare, PCA-ähnliche Struktur in den latenten Token-Raum einbettet. Während bestehende visuelle Tokenizer primär die Rekonstruktionsgenauigkeit optimieren, vernachlässigen sie oft die strukturellen Eigenschaften des latenten Raums – ein entscheidender Faktor sowohl für die Interpretierbarkeit als auch für nachgelagerte Aufgaben. Unser Verfahren erzeugt eine 1D-kausale Token-Sequenz für Bilder, bei der jeder aufeinanderfolgende Token nicht überlappende Informationen mit mathematisch garantierter abnehmender erklärter Varianz beiträgt, analog zur Hauptkomponentenanalyse. Diese strukturelle Einschränkung stellt sicher, dass der Tokenizer zunächst die wichtigsten visuellen Merkmale extrahiert, wobei jeder nachfolgende Token abnehmende, aber komplementäre Informationen hinzufügt. Zusätzlich haben wir einen semantisch-spektralen Kopplungseffekt identifiziert und behoben, der zu einer unerwünschten Vermischung von hochgradig semantischem Inhalt und niedriggradigen spektralen Details in den Tokens führt, indem wir einen Diffusions-Decoder nutzen. Experimente zeigen, dass unser Ansatz eine state-of-the-art Rekonstruktionsleistung erreicht und eine bessere Interpretierbarkeit ermöglicht, die mit dem menschlichen Sehsystem übereinstimmt. Darüber hinaus erreichen autoregressive Modelle, die auf unseren Token-Sequenzen trainiert werden, eine Leistung, die mit aktuellen state-of-the-art Methoden vergleichbar ist, während sie weniger Tokens für Training und Inferenz benötigen.
English
We introduce a novel visual tokenization framework that embeds a provable
PCA-like structure into the latent token space. While existing visual
tokenizers primarily optimize for reconstruction fidelity, they often neglect
the structural properties of the latent space -- a critical factor for both
interpretability and downstream tasks. Our method generates a 1D causal token
sequence for images, where each successive token contributes non-overlapping
information with mathematically guaranteed decreasing explained variance,
analogous to principal component analysis. This structural constraint ensures
the tokenizer extracts the most salient visual features first, with each
subsequent token adding diminishing yet complementary information.
Additionally, we identified and resolved a semantic-spectrum coupling effect
that causes the unwanted entanglement of high-level semantic content and
low-level spectral details in the tokens by leveraging a diffusion decoder.
Experiments demonstrate that our approach achieves state-of-the-art
reconstruction performance and enables better interpretability to align with
the human vision system. Moreover, auto-regressive models trained on our token
sequences achieve performance comparable to current state-of-the-art methods
while requiring fewer tokens for training and inference.Summary
AI-Generated Summary