Seg-Zero: Segmentierung durch kognitive Verstärkung mittels Reasoning-Ketten
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
March 9, 2025
Autoren: Yuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia
cs.AI
Zusammenfassung
Traditionelle Methoden für die Segmentierung durch logisches Schließen basieren auf überwachtem Feinabstimmen mit kategorialen Labels und einfachen Beschreibungen, was die Generalisierung außerhalb des Trainingsbereichs einschränkt und explizite Schlussfolgerungsprozesse vermissen lässt. Um diese Einschränkungen zu überwinden, schlagen wir Seg-Zero vor, ein neuartiges Framework, das bemerkenswerte Generalisierbarkeit zeigt und explizite Ketten von Schlussfolgerungen durch kognitive Verstärkung ableitet. Seg-Zero führt eine entkoppelte Architektur ein, die aus einem Schlussfolgerungsmodell und einem Segmentierungsmodell besteht. Das Schlussfolgerungsmodell interpretiert Benutzerabsichten, erzeugt explizite Schlussfolgerungsketten und produziert Positionshinweise, die anschließend vom Segmentierungsmodell verwendet werden, um präzise pixelgenaue Masken zu generieren. Wir entwerfen einen ausgeklügelten Belohnungsmechanismus, der sowohl Format- als auch Genauigkeitsbelohnungen integriert, um die Optimierungsrichtungen effektiv zu steuern. Ausschließlich durch Verstärkungslernen mit GRPO und ohne explizite Schlussfolgerungsdaten trainiert, erreicht Seg-Zero robuste Zero-Shot-Generalisierung und zeigt emergente Fähigkeiten zur Schlussfolgerung zur Testzeit. Experimente zeigen, dass Seg-Zero-7B eine Zero-Shot-Leistung von 57,5 auf dem ReasonSeg-Benchmark erreicht, was den bisherigen LISA-7B um 18\% übertrifft. Diese signifikante Verbesserung unterstreicht die Fähigkeit von Seg-Zero, domänenübergreifend zu generalisieren, während es einen expliziten Schlussfolgerungsprozess präsentiert. Der Code ist verfügbar unter https://github.com/dvlab-research/Seg-Zero.
English
Traditional methods for reasoning segmentation rely on supervised fine-tuning
with categorical labels and simple descriptions, limiting its out-of-domain
generalization and lacking explicit reasoning processes. To address these
limitations, we propose Seg-Zero, a novel framework that demonstrates
remarkable generalizability and derives explicit chain-of-thought reasoning
through cognitive reinforcement. Seg-Zero introduces a decoupled architecture
consisting of a reasoning model and a segmentation model. The reasoning model
interprets user intentions, generates explicit reasoning chains, and produces
positional prompts, which are subsequently used by the segmentation model to
generate precious pixel-level masks. We design a sophisticated reward mechanism
that integrates both format and accuracy rewards to effectively guide
optimization directions. Trained exclusively via reinforcement learning with
GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot
generalization and exhibits emergent test-time reasoning capabilities.
Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on
the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant
improvement highlights Seg-Zero's ability to generalize across domains while
presenting an explicit reasoning process. Code is available at
https://github.com/dvlab-research/Seg-Zero.Summary
AI-Generated Summary