ChatPaper.aiChatPaper

Generalisierte Few-Shot 3D-Punktwolkensegmentierung mit Vision-Sprache-Modell

Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

March 20, 2025
Autoren: Zhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie
cs.AI

Zusammenfassung

Die generalisierte Few-Shot-3D-Punktwolken-Segmentierung (GFS-PCS) passt Modelle an neue Klassen mit wenigen Unterstützungsbeispielen an, während die Segmentierung der Basisklassen beibehalten wird. Bestehende GFS-PCS-Methoden verbessern Prototypen durch Interaktion mit Unterstützungs- oder Abfragemerkmalen, bleiben jedoch durch das spärliche Wissen aus Few-Shot-Beispielen eingeschränkt. Gleichzeitig enthalten 3D-Vision-Language-Modelle (3D VLMs), die sich über offene, neuartige Klassen generalisieren, reiches, aber verrauschtes Wissen über neue Klassen. In dieser Arbeit stellen wir ein GFS-PCS-Framework vor, das dichte, aber verrauschte Pseudolabels aus 3D VLMs mit präzisen, aber spärlichen Few-Shot-Beispielen kombiniert, um die Stärken beider zu maximieren, genannt GFS-VL. Konkret präsentieren wir eine prototypgeleitete Pseudolabel-Auswahl, um qualitativ minderwertige Regionen zu filtern, gefolgt von einer adaptiven Auffüllstrategie, die Wissen aus Pseudolabel-Kontexten und Few-Shot-Beispielen kombiniert, um die gefilterten, unbeschrifteten Bereiche adaptiv zu beschriften. Zusätzlich entwerfen wir eine Novel-Base-Mix-Strategie, um Few-Shot-Beispiele in Trainingsszenen einzubetten und den wesentlichen Kontext für ein verbessertes Lernen neuer Klassen zu bewahren. Darüber hinaus führen wir, in Anerkennung der begrenzten Vielfalt in aktuellen GFS-PCS-Benchmarks, zwei anspruchsvolle Benchmarks mit vielfältigen neuen Klassen für eine umfassende Generalisierungsbewertung ein. Experimente bestätigen die Wirksamkeit unseres Frameworks über Modelle und Datensätze hinweg. Unser Ansatz und die Benchmarks bieten eine solide Grundlage für die Weiterentwicklung von GFS-PCS in der realen Welt. Der Code ist unter https://github.com/ZhaochongAn/GFS-VL verfügbar.
English
Generalized few-shot 3D point cloud segmentation (GFS-PCS) adapts models to new classes with few support samples while retaining base class segmentation. Existing GFS-PCS methods enhance prototypes via interacting with support or query features but remain limited by sparse knowledge from few-shot samples. Meanwhile, 3D vision-language models (3D VLMs), generalizing across open-world novel classes, contain rich but noisy novel class knowledge. In this work, we introduce a GFS-PCS framework that synergizes dense but noisy pseudo-labels from 3D VLMs with precise yet sparse few-shot samples to maximize the strengths of both, named GFS-VL. Specifically, we present a prototype-guided pseudo-label selection to filter low-quality regions, followed by an adaptive infilling strategy that combines knowledge from pseudo-label contexts and few-shot samples to adaptively label the filtered, unlabeled areas. Additionally, we design a novel-base mix strategy to embed few-shot samples into training scenes, preserving essential context for improved novel class learning. Moreover, recognizing the limited diversity in current GFS-PCS benchmarks, we introduce two challenging benchmarks with diverse novel classes for comprehensive generalization evaluation. Experiments validate the effectiveness of our framework across models and datasets. Our approach and benchmarks provide a solid foundation for advancing GFS-PCS in the real world. The code is at https://github.com/ZhaochongAn/GFS-VL

Summary

AI-Generated Summary

PDF52March 24, 2025