ChatPaper.aiChatPaper

Verso l'apprendimento per completare qualsiasi cosa nei dati LiDAR

Towards Learning to Complete Anything in Lidar

April 16, 2025
Autori: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI

Abstract

Proponiamo CAL (Complete Anything in Lidar) per il completamento di forme basato su Lidar in contesti reali. Questo è strettamente correlato al completamento semantico/panottico di scene basato su Lidar. Tuttavia, i metodi contemporanei possono completare e riconoscere oggetti solo da un vocabolario chiuso etichettato nei dataset Lidar esistenti. Diversamente, il nostro approccio zero-shot sfrutta il contesto temporale proveniente da sequenze di sensori multi-modali per estrarre forme di oggetti e caratteristiche semantiche degli oggetti osservati. Queste vengono poi distillate in un modello di completamento e riconoscimento a livello di istanza basato esclusivamente su Lidar. Sebbene estraiamo solo completamenti parziali delle forme, scopriamo che il nostro modello distillato impara a inferire forme complete degli oggetti da molteplici osservazioni parziali presenti nel dataset. Dimostriamo che il nostro modello può essere utilizzato su benchmark standard per il completamento semantico e panottico di scene, localizzare oggetti come bounding box 3D (amodali) e riconoscere oggetti oltre i vocabolari di classi predefiniti. La pagina del nostro progetto è disponibile all'indirizzo https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar

Summary

AI-Generated Summary

PDF82April 17, 2025