UFO: Унифицированный подход к детальному визуальному восприятию через открытый языковой интерфейс
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
March 3, 2025
Авторы: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang
cs.AI
Аннотация
Универсальные модели достигли значительных успехов как в языковых, так и в задачах, связанных с обработкой изображений и текста, демонстрируя потенциал унифицированного моделирования. Однако эффективная интеграция задач детального восприятия, таких как обнаружение и сегментация, в эти модели остается серьезной проблемой. Это связано в первую очередь с тем, что такие задачи часто зависят от специфических архитектур и решений, что усложняет процесс моделирования. Для решения этой проблемы мы представляем \ours — фреймворк, который унифицирует задачи детального визуального восприятия через открытый языковой интерфейс. Преобразуя все цели восприятия в языковое пространство, \ours объединяет задачи обнаружения на уровне объектов, сегментации на уровне пикселей и задачи, связанные с обработкой изображений и текста, в единую модель. Кроме того, мы предлагаем новый подход к извлечению вложений, который полностью опирается на языковой интерфейс для поддержки задач сегментации. Наш фреймворк устраняет разрыв между задачами детального восприятия и обработки изображений и текста, значительно упрощая архитектурный дизайн и стратегии обучения, при этом достигая сопоставимых или превосходящих результатов по сравнению с методами, использующими сложные специфические решения. После многозадачного обучения на пяти стандартных наборах данных для визуального восприятия, \ours превосходит предыдущие лучшие универсальные модели на 12.3 mAP в задаче сегментации экземпляров на COCO и на 3.3 mIoU в задаче семантической сегментации на ADE20K. Более того, наш метод легко интегрируется с существующими MLLM, эффективно сочетая возможности детального восприятия с их продвинутыми языковыми способностями, что позволяет решать более сложные задачи, такие как сегментация с рассуждением. Код и модели будут доступны публично.
English
Generalist models have achieved remarkable success in both language and
vision-language tasks, showcasing the potential of unified modeling. However,
effectively integrating fine-grained perception tasks like detection and
segmentation into these models remains a significant challenge. This is
primarily because these tasks often rely heavily on task-specific designs and
architectures that can complicate the modeling process. To address this
challenge, we present \ours, a framework that Unifies
Fine-grained visual perception tasks through an Open-ended
language interface. By transforming all perception targets into the language
space, \ours unifies object-level detection, pixel-level segmentation, and
image-level vision-language tasks into a single model. Additionally, we
introduce a novel embedding retrieval approach that relies solely on the
language interface to support segmentation tasks. Our framework bridges the gap
between fine-grained perception and vision-language tasks, significantly
simplifying architectural design and training strategies while achieving
comparable or superior performance to methods with intricate task-specific
designs. After multi-task training on five standard visual perception datasets,
\ours outperforms the previous state-of-the-art generalist models by 12.3 mAP
on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation.
Furthermore, our method seamlessly integrates with existing MLLMs, effectively
combining fine-grained perception capabilities with their advanced language
abilities, thereby enabling more challenging tasks such as reasoning
segmentation. Code and models will be publicly available.Summary
AI-Generated Summary