Внедрение токена визуального восприятия в мультимодальную модель большого языка
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Авторы: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Аннотация
Для использования визуальной информации мультимодальная большая языковая модель (MLLM) опирается на процесс восприятия, осуществляемый её визуальным кодировщиком. Полнота и точность визуального восприятия существенно влияют на точность пространственного рассуждения, детального понимания и других задач. Однако MLLM всё ещё не обладает автономной способностью управлять своими процессами визуального восприятия, например, выборочно анализировать определённые области изображения или фокусироваться на информации, связанной с конкретными категориями объектов. В данной работе мы предлагаем концепцию Токена Визуального Восприятия, направленную на предоставление MLLM механизма для управления её процессами визуального восприятия. Мы разработали два типа Токенов Визуального Восприятия, названные Токеном Выбора Области и Токеном Повторного Кодирования Видения. MLLM автономно генерирует эти токены, так же как она генерирует текст, и использует их для запуска дополнительных действий визуального восприятия. Токен Выбора Области явно указывает на конкретные области изображения, которые требуют дальнейшего восприятия, в то время как Токен Повторного Кодирования Видения использует свои скрытые состояния в качестве управляющих сигналов для направления дополнительных процессов визуального восприятия. Многочисленные эксперименты демонстрируют преимущества этих токенов в обработке пространственного рассуждения, улучшении детального понимания и других задач. В среднем, введение Токенов Визуального Восприятия повышает производительность модели с 2B параметров на 23,6%, увеличивая её оценку с 0,572 до 0,708, и даже превосходит модель с 7B параметров на 13,4% (с 0,624). Ознакомьтесь с нашим репозиторием: https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionTokenSummary
AI-Generated Summary