ChatPaper.aiChatPaper

3D CoCa: I Modelli Contrastivi sono Generatori di Descrizioni 3D

3D CoCa: Contrastive Learners are 3D Captioners

April 13, 2025
Autori: Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang
cs.AI

Abstract

La descrizione 3D, che mira a descrivere il contenuto di scene 3D in linguaggio naturale, rimane estremamente impegnativa a causa della intrinseca sparsità delle nuvole di punti e del debole allineamento cross-modale nei metodi esistenti. Per affrontare queste sfide, proponiamo 3D CoCa, un nuovo framework unificato che combina in modo fluido l'apprendimento contrastivo visione-linguaggio con la generazione di descrizioni 3D in un'unica architettura. Il nostro approccio sfrutta un backbone visione-linguaggio CLIP congelato per fornire ricchi prior semantici, un codificatore di scene 3D spazialmente consapevole per catturare il contesto geometrico e un decoder multi-modale per generare descrizioni dettagliate. A differenza dei precedenti metodi a due stadi che si basano su proposte esplicite di oggetti, 3D CoCa ottimizza congiuntamente gli obiettivi contrastivi e di descrizione in uno spazio di caratteristiche condiviso, eliminando la necessità di rilevatori esterni o proposte manuali. Questo paradigma di addestramento congiunto produce un ragionamento spaziale più forte e un ancoraggio semantico più ricco allineando le rappresentazioni 3D e testuali. Esperimenti estesi sui benchmark ScanRefer e Nr3D dimostrano che 3D CoCa supera significativamente gli attuali state-of-the-art del 10,2% e del 5,76% in CIDEr a 0,5IoU, rispettivamente. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/3DCoCa.
English
3D captioning, which aims to describe the content of 3D scenes in natural language, remains highly challenging due to the inherent sparsity of point clouds and weak cross-modal alignment in existing methods. To address these challenges, we propose 3D CoCa, a novel unified framework that seamlessly combines contrastive vision-language learning with 3D caption generation in a single architecture. Our approach leverages a frozen CLIP vision-language backbone to provide rich semantic priors, a spatially-aware 3D scene encoder to capture geometric context, and a multi-modal decoder to generate descriptive captions. Unlike prior two-stage methods that rely on explicit object proposals, 3D CoCa jointly optimizes contrastive and captioning objectives in a shared feature space, eliminating the need for external detectors or handcrafted proposals. This joint training paradigm yields stronger spatial reasoning and richer semantic grounding by aligning 3D and textual representations. Extensive experiments on the ScanRefer and Nr3D benchmarks demonstrate that 3D CoCa significantly outperforms current state-of-the-arts by 10.2% and 5.76% in CIDEr at 0.5IoU, respectively. Code will be available at https://github.com/AIGeeksGroup/3DCoCa.

Summary

AI-Generated Summary

PDF42April 15, 2025