3D CoCa: I Modelli Contrastivi sono Generatori di Descrizioni 3D
3D CoCa: Contrastive Learners are 3D Captioners
April 13, 2025
Autori: Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang
cs.AI
Abstract
La descrizione 3D, che mira a descrivere il contenuto di scene 3D in linguaggio naturale, rimane estremamente impegnativa a causa della intrinseca sparsità delle nuvole di punti e del debole allineamento cross-modale nei metodi esistenti. Per affrontare queste sfide, proponiamo 3D CoCa, un nuovo framework unificato che combina in modo fluido l'apprendimento contrastivo visione-linguaggio con la generazione di descrizioni 3D in un'unica architettura. Il nostro approccio sfrutta un backbone visione-linguaggio CLIP congelato per fornire ricchi prior semantici, un codificatore di scene 3D spazialmente consapevole per catturare il contesto geometrico e un decoder multi-modale per generare descrizioni dettagliate. A differenza dei precedenti metodi a due stadi che si basano su proposte esplicite di oggetti, 3D CoCa ottimizza congiuntamente gli obiettivi contrastivi e di descrizione in uno spazio di caratteristiche condiviso, eliminando la necessità di rilevatori esterni o proposte manuali. Questo paradigma di addestramento congiunto produce un ragionamento spaziale più forte e un ancoraggio semantico più ricco allineando le rappresentazioni 3D e testuali. Esperimenti estesi sui benchmark ScanRefer e Nr3D dimostrano che 3D CoCa supera significativamente gli attuali state-of-the-art del 10,2% e del 5,76% in CIDEr a 0,5IoU, rispettivamente. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/3DCoCa.
English
3D captioning, which aims to describe the content of 3D scenes in natural
language, remains highly challenging due to the inherent sparsity of point
clouds and weak cross-modal alignment in existing methods. To address these
challenges, we propose 3D CoCa, a novel unified framework that seamlessly
combines contrastive vision-language learning with 3D caption generation in a
single architecture. Our approach leverages a frozen CLIP vision-language
backbone to provide rich semantic priors, a spatially-aware 3D scene encoder to
capture geometric context, and a multi-modal decoder to generate descriptive
captions. Unlike prior two-stage methods that rely on explicit object
proposals, 3D CoCa jointly optimizes contrastive and captioning objectives in a
shared feature space, eliminating the need for external detectors or
handcrafted proposals. This joint training paradigm yields stronger spatial
reasoning and richer semantic grounding by aligning 3D and textual
representations. Extensive experiments on the ScanRefer and Nr3D benchmarks
demonstrate that 3D CoCa significantly outperforms current state-of-the-arts by
10.2% and 5.76% in CIDEr at 0.5IoU, respectively. Code will be available at
https://github.com/AIGeeksGroup/3DCoCa.Summary
AI-Generated Summary