LSceneLLM: Migliorare la Comprensione di Grandi Scene 3D Utilizzando Preferenze Visuali Adattive

Abstract

La ricerca sui Modelli di Visione-Linguaggio in 3D (3D-VLMs) sta attirando sempre più attenzione, essenziale per lo sviluppo dell'Intelligenza Artificiale incorporata all'interno di scene in 3D, come la navigazione visiva e la risposta a domande incorporate. A causa dell'alta densità di caratteristiche visive, specialmente in grandi scene in 3D, individuare con precisione le informazioni visive rilevanti per il compito è una sfida. I lavori esistenti cercano di segmentare tutti gli oggetti e considerare le loro caratteristiche come rappresentazioni della scena. Tuttavia, queste caratteristiche degli oggetti agnostiche rispetto al compito includono molte informazioni ridondanti e dettagli mancanti per l'area rilevante per il compito. Per affrontare questi problemi, proponiamo LSceneLLM, un framework adattivo che identifica automaticamente le aree rilevanti per il compito sfruttando le preferenze visive di LLM per diversi compiti, seguito da un modulo ingranditore di scene plug-and-play per catturare dettagli fini nelle aree focalizzate. In particolare, un selettore di token denso esamina la mappa di attenzione di LLM per identificare le preferenze visive per l'input dell'istruzione. Successivamente, ingrandisce i dettagli fini dell'area di messa a fuoco. Un modulo di auto-attenzione adattivo viene sfruttato per fondere le informazioni visive grossolane e selezionate fini. Per valutare in modo esaustivo la capacità di comprensione di grandi scene dei 3D-VLMs, introduciamo ulteriormente un benchmark di comprensione tra stanze, XR-Scene, che contiene una serie di compiti di comprensione di grandi scene tra cui XR-QA, XR-PianificazioneIncorporata e XR-SceneCaption. Gli esperimenti mostrano che il nostro metodo supera i metodi esistenti sia nella comprensione di grandi scene che nei benchmark di comprensione delle scene esistenti. Inoltre, l'introduzione del nostro modulo ingranditore di scene nei 3D-VLMs esistenti porta a un significativo miglioramento.

English

Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.

LSceneLLM: Migliorare la Comprensione di Grandi Scene 3D Utilizzando Preferenze Visuali Adattive

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

Abstract

Summary

Support