Adaptieve lengtebeeldtokenisatie via terugkerende toewijzing
Adaptive Length Image Tokenization via Recurrent Allocation
November 4, 2024
Auteurs: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman
cs.AI
Samenvatting
Huidige visionsystemen wijzen doorgaans vaste representaties toe aan afbeeldingen, ongeacht de informatieve inhoud. Dit staat in contrast met menselijke intelligentie - en zelfs grote taalmodellen - die variërende representatiecapaciteiten toewijzen op basis van entropie, context en bekendheid. Geïnspireerd hierdoor stellen wij een benadering voor om variabele lengte tokenrepresentaties te leren voor 2D-afbeeldingen. Onze encoder-decoder architectuur verwerkt recursief 2D-afbeeldingstokens, destilleert ze tot 1D latente tokens over meerdere iteraties van terugkerende roll-outs. Elke iteratie verfijnt de 2D-tokens, werkt de bestaande 1D latente tokens bij en verhoogt adaptief de representatiecapaciteit door nieuwe tokens toe te voegen. Dit maakt compressie van afbeeldingen mogelijk tot een variabel aantal tokens, variërend van 32 tot 256. We valideren onze tokenizer met behulp van reconstructieverlies- en FID-metingen, waarbij wordt aangetoond dat het aantal tokens overeenkomt met de beeldentropie, bekendheid en vereisten van downstream taken. Terugkerende tokenverwerking met toenemende representatiecapaciteit in elke iteratie vertoont tekenen van tokenspecialisatie, wat het potentieel onthult voor object-/onderdeelontdekking.
English
Current vision systems typically assign fixed-length representations to
images, regardless of the information content. This contrasts with human
intelligence - and even large language models - which allocate varying
representational capacities based on entropy, context and familiarity. Inspired
by this, we propose an approach to learn variable-length token representations
for 2D images. Our encoder-decoder architecture recursively processes 2D image
tokens, distilling them into 1D latent tokens over multiple iterations of
recurrent rollouts. Each iteration refines the 2D tokens, updates the existing
1D latent tokens, and adaptively increases representational capacity by adding
new tokens. This enables compression of images into a variable number of
tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction
loss and FID metrics, demonstrating that token count aligns with image entropy,
familiarity and downstream task requirements. Recurrent token processing with
increasing representational capacity in each iteration shows signs of token
specialization, revealing potential for object / part discovery.Summary
AI-Generated Summary