ChatPaper.aiChatPaper

„Hauptkomponenten“ ermöglichen eine neue Bildsprache

"Principal Components" Enable A New Language of Images

March 11, 2025
Autoren: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI

Zusammenfassung

Wir stellen ein neuartiges Framework zur visuellen Tokenisierung vor, das eine beweisbare, PCA-ähnliche Struktur in den latenten Token-Raum einbettet. Während bestehende visuelle Tokenizer primär die Rekonstruktionsgenauigkeit optimieren, vernachlässigen sie oft die strukturellen Eigenschaften des latenten Raums – ein entscheidender Faktor sowohl für die Interpretierbarkeit als auch für nachgelagerte Aufgaben. Unser Verfahren erzeugt eine 1D-kausale Token-Sequenz für Bilder, bei der jeder aufeinanderfolgende Token nicht überlappende Informationen mit mathematisch garantierter abnehmender erklärter Varianz beiträgt, analog zur Hauptkomponentenanalyse. Diese strukturelle Einschränkung stellt sicher, dass der Tokenizer zunächst die wichtigsten visuellen Merkmale extrahiert, wobei jeder nachfolgende Token abnehmende, aber komplementäre Informationen hinzufügt. Zusätzlich haben wir einen semantisch-spektralen Kopplungseffekt identifiziert und behoben, der zu einer unerwünschten Vermischung von hochgradig semantischem Inhalt und niedriggradigen spektralen Details in den Tokens führt, indem wir einen Diffusions-Decoder nutzen. Experimente zeigen, dass unser Ansatz eine state-of-the-art Rekonstruktionsleistung erreicht und eine bessere Interpretierbarkeit ermöglicht, die mit dem menschlichen Sehsystem übereinstimmt. Darüber hinaus erreichen autoregressive Modelle, die auf unseren Token-Sequenzen trainiert werden, eine Leistung, die mit aktuellen state-of-the-art Methoden vergleichbar ist, während sie weniger Tokens für Training und Inferenz benötigen.
English
We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space -- a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.

Summary

AI-Generated Summary

PDF122March 12, 2025