SegAgent: Erforschung der Pixelverständnisfähigkeiten in MLLMs durch Nachahmung menschlicher Annotator-Trajektorien
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
March 11, 2025
Autoren: Muzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
cs.AI
Zusammenfassung
Während MLLMs (Multimodale Large Language Models) angemessene Fähigkeiten im Bildverständnis demonstriert haben, kämpfen sie immer noch mit der pixelgenauen Komprehension, was ihre praktischen Anwendungen einschränkt. Aktuelle Evaluierungsaufgaben wie VQA (Visual Question Answering) und visuelles Grounding bleiben zu grob, um die fein abgestufte Pixelverständnis genau zu bewerten. Obwohl Segmentierung grundlegend für das pixelgenaue Verständnis ist, erfordern bestehende Methoden oft, dass MLLMs implizite Tokens generieren, die durch externe Pixel-Decoder decodiert werden. Dieser Ansatz stört den Textausgaberaum der MLLMs, was möglicherweise die Sprachfähigkeiten beeinträchtigt und die Flexibilität und Erweiterbarkeit reduziert, während er das intrinsische pixelgenaue Verständnis des Modells nicht widerspiegelt.
Daher führen wir die Human-Like Mask Annotation Task (HLMAT) ein, ein neues Paradigma, bei dem MLLMs menschliche Annotatoren mit interaktiven Segmentierungswerkzeugen nachahmen. Indem die Segmentierung als mehrstufiger Markov-Entscheidungsprozess modelliert wird, ermöglicht HLMAT MLLMs, iterativ textbasierte Klickpunkte zu generieren und so hochwertige Masken ohne architektonische Änderungen oder implizite Tokens zu erreichen. Durch diesen Aufbau entwickeln wir SegAgent, ein Modell, das auf menschlichen Annotationspfaden feinabgestimmt wurde und eine Leistung erzielt, die mit state-of-the-art (SOTA) Methoden vergleichbar ist, und zusätzliche Aufgaben wie Maskenverfeinerung und Annotationsfilterung unterstützt.
HLMAT bietet ein Protokoll zur Bewertung des fein abgestuften Pixelverständnisses in MLLMs und führt eine visuell zentrierte, mehrstufige Entscheidungsfindungsaufgabe ein, die die Erforschung der visuellen Argumentationsfähigkeiten von MLLMs erleichtert. Unsere Anpassungen der Policy-Verbesserungsmethode StaR und der PRM-geführten Baumsuche verbessern die Modellrobustheit in komplexen Segmentierungsaufgaben weiter und legen eine Grundlage für zukünftige Fortschritte in der fein abgestuften visuellen Wahrnehmung und der mehrstufigen Entscheidungsfindung für MLLMs.
English
While MLLMs have demonstrated adequate image understanding capabilities, they
still struggle with pixel-level comprehension, limiting their practical
applications. Current evaluation tasks like VQA and visual grounding remain too
coarse to assess fine-grained pixel comprehension accurately. Though
segmentation is foundational for pixel-level understanding, existing methods
often require MLLMs to generate implicit tokens, decoded through external pixel
decoders. This approach disrupts the MLLM's text output space, potentially
compromising language capabilities and reducing flexibility and extensibility,
while failing to reflect the model's intrinsic pixel-level understanding.
Thus, we introduce the Human-Like Mask Annotation Task (HLMAT), a new
paradigm where MLLMs mimic human annotators using interactive segmentation
tools. Modeling segmentation as a multi-step Markov Decision Process, HLMAT
enables MLLMs to iteratively generate text-based click points, achieving
high-quality masks without architectural changes or implicit tokens. Through
this setup, we develop SegAgent, a model fine-tuned on human-like annotation
trajectories, which achieves performance comparable to state-of-the-art (SOTA)
methods and supports additional tasks like mask refinement and annotation
filtering.
HLMAT provides a protocol for assessing fine-grained pixel understanding in
MLLMs and introduces a vision-centric, multi-step decision-making task that
facilitates exploration of MLLMs' visual reasoning abilities. Our adaptations
of policy improvement method StaR and PRM-guided tree search further enhance
model robustness in complex segmentation tasks, laying a foundation for future
advancements in fine-grained visual perception and multi-step decision-making
for MLLMs.Summary
AI-Generated Summary