LLaVA-3D: 3D 인식 능력을 강화하는 LMMs에 대한 간단하면서도 효과적인 방법
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
September 26, 2024
저자: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI
초록
최근 대규모 다중 모달 모델(LMMs)의 발전은 2D 시각 이해 작업에서 그들의 능숙성을 크게 향상시켰으며, 이미지와 비디오를 효과적으로 처리하고 이해할 수 있게 했다. 그러나 3D 장면 이해를 위한 3D 인식을 갖춘 LMMs의 개발은 대규모 3D 비전-언어 데이터셋과 강력한 3D 인코더의 부족으로 인해 지연되었다. 본 논문에서는 LLaVA-3D라는 간단하면서도 효과적인 프레임워크를 소개한다. LLaVA로부터 강력한 2D 이해 선행 지식을 활용하여, 우리의 LLaVA-3D는 2D 이해 능력을 희생하지 않고 3D 장면 이해를 위해 LLaVA를 효과적으로 적응시킨다. 이를 달성하기 위해, 우리는 2D CLIP 패치 특징을 3D 공간에서 해당 위치와 연결하는 3D 패치라는 간단하면서도 효과적인 표현을 활용한다. 3D 패치를 2D LMMs에 통합하고 2D 및 3D 비전-언어 지시 튜닝을 활용하여, 우리는 2D 이미지 이해와 3D 장면 이해를 위한 통합 아키텍처를 수립한다. 실험 결과는, LLaVA-3D가 3D 비전-언어 데이터셋에서 훈련될 때 기존 3D LMMs보다 3.5배 빠르게 수렴함을 보여준다. 더불어, LLaVA-3D는 다양한 3D 작업에서 최첨단 성능을 달성할 뿐만 아니라, LLaVA와 유사한 2D 이미지 이해 및 비전-언어 대화 능력을 유지한다.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced
their proficiency in 2D visual understanding tasks, enabling them to
effectively process and understand images and videos. However, the development
of LMMs with 3D-awareness for 3D scene understanding has been hindered by the
lack of large-scale 3D vision-language datasets and powerful 3D encoders. In
this paper, we introduce a simple yet effective framework called LLaVA-3D.
Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D
efficiently adapts LLaVA for 3D scene understanding without compromising 2D
understanding capabilities. To achieve this, we employ a simple yet effective
representation, 3D Patch, which connects 2D CLIP patch features with their
corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs
and employing joint 2D and 3D vision-language instruction tuning, we establish
a unified architecture for both 2D image understanding and 3D scene
understanding. Experimental results show that LLaVA-3D converges 3.5x faster
than existing 3D LMMs when trained on 3D vision-language datasets. Moreover,
LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks
but also maintains comparable 2D image understanding and vision-language
conversation capabilities with LLaVA.Summary
AI-Generated Summary