REF-VLM: Triplet-basiertes Referenzparadigma für einheitliche visuelle Dekodierung
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Autoren: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) zeigen robuste Zero-Shot-Fähigkeiten über diverse Vision-Language-Aufgaben hinweg, nachdem sie auf groß angelegten Datensätzen trainiert wurden. Allerdings stellen dichte Vorhersageaufgaben wie semantische Segmentierung und Keypoint-Erkennung erhebliche Herausforderungen für MLLMs dar, wenn sie ausschließlich als Textausgaben repräsentiert werden. Gleichzeitig zeigen aktuelle MLLMs, die latente Einbettungen für die Dekodierung visueller Aufgaben verwenden, in der Regel eine begrenzte Anpassungsfähigkeit sowohl für Multi-Task-Lernen als auch für Szenarien mit mehreren Granularitäten. In dieser Arbeit präsentieren wir REF-VLM, ein End-to-End-Framework für die einheitliche Ausbildung verschiedener visueller Dekodierungsaufgaben. Um komplexe visuelle Dekodierungsszenarien zu bewältigen, führen wir das Triplet-Based Referring Paradigm (TRP) ein, das drei kritische Dimensionen in visuellen Dekodierungsaufgaben durch eine Triplet-Struktur explizit entkoppelt: Konzepte, Dekodierungstypen und Ziele. TRP verwendet symbolische Trennzeichen, um strukturiertes Repräsentationslernen zu erzwingen, was die Parsbarkeit und Interpretierbarkeit der Modellausgaben verbessert. Zusätzlich erstellen wir das Visual-Task Instruction Following Dataset (VTInstruct), einen groß angelegten Multi-Task-Datensatz, der über 100 Millionen multimodale Dialogbeispiele über 25 Aufgabentypen hinweg enthält. Neben Text-Eingaben und -Ausgaben integriert VT-Instruct verschiedene visuelle Prompts wie Punkt, Box, Scribble und Maske und generiert Ausgaben, die aus Text und visuellen Einheiten wie Box, Keypoint, Tiefe und Maske bestehen. Die Kombination verschiedener visueller Prompts und visueller Einheiten erzeugt eine Vielzahl von Aufgabentypen, was die Anwendbarkeit von REF-VLM erheblich erweitert. Sowohl qualitative als auch quantitative Experimente zeigen, dass unser REF-VLM andere MLLMs über eine Vielzahl von Standard-Benchmarks hinweg übertrifft. Der Code, der Datensatz und die Demo sind verfügbar unter https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary