다중 모달 언어 모델에서 인지 토큰은 시각 추론을 향상시킵니다.
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
December 4, 2024
저자: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI
초록
다중언어 모델(MLM)은 여전히 전문 모델이 뛰어난 기본 시각 인식 작업에서 도전을 겪고 있습니다. 3D 구조에 대한 추론이 필요한 작업은 깊이 추정에서 이점을 얻고, 2D 객체 인스턴스에 대한 추론은 객체 감지에서 이점을 얻습니다. 그러나 MLM은 중간 깊이나 상자를 생성하여 추론할 수 없습니다. 관련 데이터로 MLM을 세밀 조정해도 일반화가 잘 되지 않으며 전문 비전 도구로의 계산 외주는 계산 집약적이고 메모리 비효율적입니다. 이를 해결하기 위해 우리는 언어만으로는 충분하지 않은 추론 작업을 지원하기 위해 설계된 내재 이미지 표현인 'Perception Tokens'을 소개합니다. Perception tokens은 보조 추론 토큰으로 작용하며, 언어 모델의 사고 체인 프롬프트와 유사합니다. 예를 들어, 깊이 관련 작업에서 Perception tokens로 보강된 MLM은 토큰으로 깊이 맵을 생성하여 문제를 효과적으로 해결할 수 있습니다. 우리는 시갘 입력에 대한 추론을 향상시키기 위해 MLM에 Perception tokens을 추가하는 교육 방법인 AURORA를 제안합니다. AURORA는 VQVAE를 활용하여 중간 이미지 표현(예: 깊이 맵)을 토큰화된 형식으로 변환하고, 이를 다중 작업 교육 프레임워크에서 사용하는 방식으로 작동합니다. AURORA는 BLINK에서 +10.8%, CVBench에서 +11.3%, SEED-Bench에서 +8.3%의 계수 벤치마크에서 주목할만한 개선을 달성하며, 데이터셋 간 일반화에서 세밀 조정 접근법을 능가합니다. 또한 BLINK에서 상대적 깊이에 대해 +6% 이상의 개선을 달성합니다. Perception tokens을 통해 AURORA는 언어 기반 추론을 넘어 MLM의 범위를 확장하여 더 효과적인 시각 추론 능력을 열어갑니다.
English
Multimodal language models (MLMs) still face challenges in fundamental visual
perception tasks where specialized models excel. Tasks requiring reasoning
about 3D structures benefit from depth estimation, and reasoning about 2D
object instances benefits from object detection. Yet, MLMs can not produce
intermediate depth or boxes to reason over. Finetuning MLMs on relevant data
doesn't generalize well and outsourcing computation to specialized vision tools
is too compute-intensive and memory-inefficient. To address this, we introduce
Perception Tokens, intrinsic image representations designed to assist reasoning
tasks where language is insufficient. Perception tokens act as auxiliary
reasoning tokens, akin to chain-of-thought prompts in language models. For
example, in a depth-related task, an MLM augmented with perception tokens can
reason by generating a depth map as tokens, enabling it to solve the problem
effectively. We propose AURORA, a training method that augments MLMs with
perception tokens for improved reasoning over visual inputs. AURORA leverages a
VQVAE to transform intermediate image representations, such as depth maps into
a tokenized format and bounding box tokens, which is then used in a multi-task
training framework. AURORA achieves notable improvements across counting
benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench,
outperforming finetuning approaches in generalization across datasets. It also
improves on relative depth: over +6% on BLINK. With perception tokens, AURORA
expands the scope of MLMs beyond language-based reasoning, paving the way for
more effective visual reasoning capabilities.Summary
AI-Generated Summary