Tokenizzazione adattiva dell'immagine di lunghezza tramite allocazione ricorrente

Adaptive Length Image Tokenization via Recurrent Allocation

November 4, 2024
Autori: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman
cs.AI

Abstract

I sistemi di visione attuali assegnano tipicamente rappresentazioni di lunghezza fissa alle immagini, indipendentemente dal contenuto informativo. Questo contrasta con l'intelligenza umana - e persino con i grandi modelli linguistici - che allocano capacità rappresentative variabili in base all'entropia, al contesto e alla familiarità. Ispirandoci a ciò, proponiamo un approccio per apprendere rappresentazioni di token di lunghezza variabile per immagini 2D. La nostra architettura encoder-decoder elabora in modo ricorsivo i token delle immagini 2D, distillandoli in token latenti 1D attraverso molteplici iterazioni di rollouts ricorrenti. Ogni iterazione affina i token 2D, aggiorna i token latenti 1D esistenti e aumenta in modo adattivo la capacità rappresentativa aggiungendo nuovi token. Ciò consente la compressione delle immagini in un numero variabile di token, che va da 32 a 256. Convalidiamo il nostro tokenizer utilizzando la perdita di ricostruzione e le metriche FID, dimostrando che il conteggio dei token si allinea con l'entropia dell'immagine, la familiarità e i requisiti delle attività successive. Il processamento ricorrente dei token con aumento della capacità rappresentativa in ciascuna iterazione mostra segni di specializzazione dei token, rivelando potenzialità per la scoperta di oggetti/parti.
English
Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

Summary

AI-Generated Summary

PDF121November 13, 2024