Tokenisation d'image à longueur adaptative via allocation récurrente

Résumé

Les systèmes de vision actuels attribuent généralement des représentations de longueur fixe aux images, indépendamment de leur contenu informationnel. Cela contraste avec l'intelligence humaine - et même avec de grands modèles de langage - qui allouent des capacités représentationnelles variables en fonction de l'entropie, du contexte et de la familiarité. Inspirés par cela, nous proposons une approche pour apprendre des représentations de jetons de longueur variable pour les images 2D. Notre architecture encodeur-décodeur traite de manière récursive les jetons d'image 2D, les distillant en jetons latents 1D sur plusieurs itérations de déploiements récurrents. Chaque itération affine les jetons 2D, met à jour les jetons latents 1D existants et augmente de manière adaptative la capacité représentationnelle en ajoutant de nouveaux jetons. Cela permet la compression des images en un nombre variable de jetons, allant de 32 à 256. Nous validons notre tokenizer en utilisant la perte de reconstruction et les métriques FID, démontrant que le nombre de jetons est en accord avec l'entropie de l'image, la familiarité et les exigences des tâches en aval. Le traitement récurrent des jetons avec une capacité représentationnelle croissante à chaque itération montre des signes de spécialisation des jetons, révélant un potentiel pour la découverte d'objets / parties.

English

Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

Tokenisation d'image à longueur adaptative via allocation récurrente

Adaptive Length Image Tokenization via Recurrent Allocation

Résumé

Summary

Support