I Token di Percezione Migliorano il Ragionamento Visivo nei Modelli di Linguaggio Multimodali

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

December 4, 2024
Autori: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI

Abstract

I modelli linguistici multimodali (MLM) affrontano ancora sfide nelle fondamentali attività di percezione visiva in cui eccellono i modelli specializzati. Le attività che richiedono ragionamento su strutture 3D beneficiano della stima della profondità, mentre il ragionamento su istanze di oggetti 2D beneficia della rilevazione degli oggetti. Tuttavia, i MLM non possono produrre profondità o box intermedi su cui ragionare. Il raffinamento dei MLM su dati rilevanti non generalizza bene e l'esternalizzazione del calcolo a strumenti di visione specializzati è troppo intensiva in termini di calcolo e inefficiente in termini di memoria. Per affrontare questo problema, introduciamo i Token di Percezione, rappresentazioni intrinseche delle immagini progettate per assistere nelle attività di ragionamento dove il linguaggio è insufficiente. I token di percezione agiscono come token di ragionamento ausiliari, simili a prompt di catena di pensiero nei modelli linguistici. Ad esempio, in un compito legato alla profondità, un MLM potenziato con token di percezione può ragionare generando una mappa di profondità come token, consentendogli di risolvere efficacemente il problema. Proponiamo AURORA, un metodo di addestramento che potenzia i MLM con token di percezione per un miglioramento del ragionamento su input visivi. AURORA sfrutta un VQVAE per trasformare rappresentazioni di immagini intermedie, come mappe di profondità, in un formato tokenizzato e token di box delimitanti, che viene poi utilizzato in un framework di addestramento multi-task. AURORA ottiene notevoli miglioramenti su benchmark di conteggio: +10,8% su BLINK, +11,3% su CVBench e +8,3% su SEED-Bench, superando gli approcci di raffinamento generale nella generalizzazione tra i dataset. Migliora anche la profondità relativa: oltre +6% su BLINK. Con i token di percezione, AURORA espande il campo di applicazione dei MLM oltre il ragionamento basato sul linguaggio, aprendo la strada a capacità di ragionamento visivo più efficaci.
English
Multimodal language models (MLMs) still face challenges in fundamental visual perception tasks where specialized models excel. Tasks requiring reasoning about 3D structures benefit from depth estimation, and reasoning about 2D object instances benefits from object detection. Yet, MLMs can not produce intermediate depth or boxes to reason over. Finetuning MLMs on relevant data doesn't generalize well and outsourcing computation to specialized vision tools is too compute-intensive and memory-inefficient. To address this, we introduce Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient. Perception tokens act as auxiliary reasoning tokens, akin to chain-of-thought prompts in language models. For example, in a depth-related task, an MLM augmented with perception tokens can reason by generating a depth map as tokens, enabling it to solve the problem effectively. We propose AURORA, a training method that augments MLMs with perception tokens for improved reasoning over visual inputs. AURORA leverages a VQVAE to transform intermediate image representations, such as depth maps into a tokenized format and bounding box tokens, which is then used in a multi-task training framework. AURORA achieves notable improvements across counting benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench, outperforming finetuning approaches in generalization across datasets. It also improves on relative depth: over +6% on BLINK. With perception tokens, AURORA expands the scope of MLMs beyond language-based reasoning, paving the way for more effective visual reasoning capabilities.

Summary

AI-Generated Summary

PDF172December 11, 2024