Adaptive Längenbild-Tokenisierung durch wiederkehrende Zuteilung

Adaptive Length Image Tokenization via Recurrent Allocation

November 4, 2024
Autoren: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman
cs.AI

Zusammenfassung

Aktuelle Visionssysteme weisen in der Regel fest definierte Darstellungen für Bilder zu, unabhhängig vom Informationsgehalt. Dies steht im Gegensatz zur menschlichen Intelligenz - und sogar zu großen Sprachmodellen - die je nach Entropie, Kontext und Vertrautheit variierende Darstellungskapazitäten zuweisen. Inspiriert davon schlagen wir einen Ansatz vor, um variable Token-Darstellungen für 2D-Bilder zu erlernen. Unsere Encoder-Decoder-Architektur verarbeitet rekursiv 2D-Bild-Tokens und destilliert sie in 1D-Latent-Tokens über mehrere Iterationen von wiederkehrenden Durchläufen. Jede Iteration verfeinert die 2D-Tokens, aktualisiert die bestehenden 1D-Latent-Tokens und erhöht adaptiv die Darstellungskapazität durch Hinzufügen neuer Tokens. Dies ermöglicht die Kompression von Bildern in eine variable Anzahl von Tokens, von 32 bis 256. Wir validieren unseren Tokenizer anhand von Rekonstruktionsverlust und FID-Metriken und zeigen, dass die Anzahl der Tokens mit der Bildentropie, Vertrautheit und den Anforderungen der nachgelagerten Aufgaben übereinstimmt. Die wiederkehrende Token-Verarbeitung mit zunehmender Darstellungskapazität in jeder Iteration zeigt Anzeichen von Token-Spezialisierung und offenbart Potenzial für die Entdeckung von Objekten / Teilen.
English
Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

Summary

AI-Generated Summary

PDF121November 13, 2024