Video-3D LLM: Apprendimento della Rappresentazione Video Consapevole della Posizione per la Comprensione della Scena 3D

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

November 30, 2024
Autori: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI

Abstract

Il rapido avanzamento dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) ha avuto un impatto significativo su varie attività multimodali. Tuttavia, questi modelli affrontano sfide nelle attività che richiedono comprensione spaziale all'interno di ambienti 3D. Sono stati fatti sforzi per potenziare i MLLM, come l'integrazione di caratteristiche di nuvole di punti, ma rimane una considerevole discrepanza tra le rappresentazioni apprese dai modelli e la complessità intrinseca delle scene 3D. Questa discrepanza deriva principalmente dall'addestramento dei MLLM su dati prevalentemente 2D, il che limita la loro efficacia nel comprendere spazi 3D. Per affrontare questo problema, in questo articolo proponiamo un nuovo modello generalista, ovvero Video-3D LLM, per la comprensione delle scene 3D. Trattando le scene 3D come video dinamici e incorporando la codifica della posizione 3D in queste rappresentazioni, il nostro Video-3D LLM allinea in modo più accurato le rappresentazioni video con contesti spaziali del mondo reale. Inoltre, abbiamo implementato una tecnica di campionamento di massima copertura per ottimizzare il bilanciamento tra costi computazionali ed efficienza delle prestazioni. Estesi esperimenti dimostrano che il nostro modello raggiunge prestazioni all'avanguardia su diversi benchmark di comprensione delle scene 3D, tra cui ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models' learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. Additionally, we have implemented a maximum coverage sampling technique to optimize the balance between computational costs and performance efficiency. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

Summary

AI-Generated Summary

PDF162December 5, 2024