ChatPaper.aiChatPaper

3D LMMs에서 인코더 없는 아키텍처의 잠재력 탐색

Exploring the Potential of Encoder-free Architectures in 3D LMMs

February 13, 2025
저자: Yiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao
cs.AI

초록

인코더 없는 아키텍처는 2D 시각 영역에서 예비로 탐구되었지만, 그것들이 3D 이해 시나리오에 효과적으로 적용될 수 있는지는 여전히 미해결된 문제입니다. 본 논문에서는 인코더 없는 아키텍처의 잠재력을 탐구하기 위한 첫 종합 조사를 제시합니다. 이를 통해 인코더 기반 3D 대규모 다중 모달 모델(LMMs)의 도전 과제를 극복할 수 있는지에 대한 가능성을 밝힙니다. 이러한 도전 과제에는 다양한 포인트 클라우드 해상도에 적응하지 못하는 문제와 인코더에서 나온 포인트 특징이 대규모 언어 모델(LLMs)의 의미적 요구를 충족시키지 못하는 문제가 포함됩니다. 우리는 3D LMMs에게 인코더를 제거하고 LLM이 3D 인코더의 역할을 수행하도록 하는 핵심 측면을 확인합니다: 1) 우리는 사전 훈련 단계에서 LLM-내장 의미 인코딩 전략을 제안하며, 다양한 포인트 클라우드 자기 지도 손실의 효과를 탐구합니다. 그리고 우리는 고수준 의미를 추출하기 위한 Hybrid Semantic Loss를 제시합니다. 2) 우리는 지시 조정 단계에서 계층적 기하 집계 전략을 소개합니다. 이는 LLM 초기 레이어에 귀납적 편향을 통합하여 포인트 클라우드의 지역 세부 사항에 초점을 맞춥니다. 마지막으로, 우리는 첫 번째 인코더 없는 3D LMM, ENEL을 제시합니다. 우리의 7B 모델은 현재의 최첨단 모델인 ShapeLLM-13B와 견줄만한 성과를 거두어 분류, 캡션, VQA 작업에서 각각 55.0%, 50.92%, 42.7%를 달성했습니다. 우리의 결과는 인코더 없는 아키텍처가 3D 이해 분야에서 인코더 기반 아키텍처를 대체하는 데 매우 유망함을 보여줍니다. 코드는 https://github.com/Ivan-Tang-3D/ENEL에서 공개되었습니다.
English
Encoder-free architectures have been preliminarily explored in the 2D visual domain, yet it remains an open question whether they can be effectively applied to 3D understanding scenarios. In this paper, we present the first comprehensive investigation into the potential of encoder-free architectures to overcome the challenges of encoder-based 3D Large Multimodal Models (LMMs). These challenges include the failure to adapt to varying point cloud resolutions and the point features from the encoder not meeting the semantic needs of Large Language Models (LLMs). We identify key aspects for 3D LMMs to remove the encoder and enable the LLM to assume the role of the 3D encoder: 1) We propose the LLM-embedded Semantic Encoding strategy in the pre-training stage, exploring the effects of various point cloud self-supervised losses. And we present the Hybrid Semantic Loss to extract high-level semantics. 2) We introduce the Hierarchical Geometry Aggregation strategy in the instruction tuning stage. This incorporates inductive bias into the LLM early layers to focus on the local details of the point clouds. To the end, we present the first Encoder-free 3D LMM, ENEL. Our 7B model rivals the current state-of-the-art model, ShapeLLM-13B, achieving 55.0%, 50.92%, and 42.7% on the classification, captioning, and VQA tasks, respectively. Our results demonstrate that the encoder-free architecture is highly promising for replacing encoder-based architectures in the field of 3D understanding. The code is released at https://github.com/Ivan-Tang-3D/ENEL

Summary

AI-Generated Summary

PDF262February 14, 2025