Seg-Zero: Segmentierung durch kognitive Verstärkung mittels Reasoning-Ketten

Zusammenfassung

Traditionelle Methoden für die Segmentierung durch logisches Schließen basieren auf überwachtem Feinabstimmen mit kategorialen Labels und einfachen Beschreibungen, was die Generalisierung außerhalb des Trainingsbereichs einschränkt und explizite Schlussfolgerungsprozesse vermissen lässt. Um diese Einschränkungen zu überwinden, schlagen wir Seg-Zero vor, ein neuartiges Framework, das bemerkenswerte Generalisierbarkeit zeigt und explizite Ketten von Schlussfolgerungen durch kognitive Verstärkung ableitet. Seg-Zero führt eine entkoppelte Architektur ein, die aus einem Schlussfolgerungsmodell und einem Segmentierungsmodell besteht. Das Schlussfolgerungsmodell interpretiert Benutzerabsichten, erzeugt explizite Schlussfolgerungsketten und produziert Positionshinweise, die anschließend vom Segmentierungsmodell verwendet werden, um präzise pixelgenaue Masken zu generieren. Wir entwerfen einen ausgeklügelten Belohnungsmechanismus, der sowohl Format- als auch Genauigkeitsbelohnungen integriert, um die Optimierungsrichtungen effektiv zu steuern. Ausschließlich durch Verstärkungslernen mit GRPO und ohne explizite Schlussfolgerungsdaten trainiert, erreicht Seg-Zero robuste Zero-Shot-Generalisierung und zeigt emergente Fähigkeiten zur Schlussfolgerung zur Testzeit. Experimente zeigen, dass Seg-Zero-7B eine Zero-Shot-Leistung von 57,5 auf dem ReasonSeg-Benchmark erreicht, was den bisherigen LISA-7B um 18\% übertrifft. Diese signifikante Verbesserung unterstreicht die Fähigkeit von Seg-Zero, domänenübergreifend zu generalisieren, während es einen expliziten Schlussfolgerungsprozess präsentiert. Der Code ist verfügbar unter https://github.com/dvlab-research/Seg-Zero.

English

Traditional methods for reasoning segmentation rely on supervised fine-tuning with categorical labels and simple descriptions, limiting its out-of-domain generalization and lacking explicit reasoning processes. To address these limitations, we propose Seg-Zero, a novel framework that demonstrates remarkable generalizability and derives explicit chain-of-thought reasoning through cognitive reinforcement. Seg-Zero introduces a decoupled architecture consisting of a reasoning model and a segmentation model. The reasoning model interprets user intentions, generates explicit reasoning chains, and produces positional prompts, which are subsequently used by the segmentation model to generate precious pixel-level masks. We design a sophisticated reward mechanism that integrates both format and accuracy rewards to effectively guide optimization directions. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Seg-Zero achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Experiments show that Seg-Zero-7B achieves a zero-shot performance of 57.5 on the ReasonSeg benchmark, surpassing the prior LISA-7B by 18\%. This significant improvement highlights Seg-Zero's ability to generalize across domains while presenting an explicit reasoning process. Code is available at https://github.com/dvlab-research/Seg-Zero.

Seg-Zero: Segmentierung durch kognitive Verstärkung mittels Reasoning-Ketten

Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Zusammenfassung

Summary

Support

Support