로빈3D: 견고한 지시 조정을 통해 3D 대형 언어 모델 개선
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
September 30, 2024
저자: Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
cs.AI
초록
최근 3D 대규모 언어 모델(3DLLM)의 발전은 3D 실제 세계에서 일반 목적의 에이전트를 구축하는 잠재력을 강조했지만, 고품질의 견고한 지시 따르기 데이터 부족으로 인한 도전이 여전히 존재하여 3DLLM의 한정된 식별 능력과 일반화에 제한이 생겼습니다. 본 논문에서는 우리의 혁신적인 데이터 엔진인 견고한 지시 생성(RIG) 엔진에 의해 생성된 대규모 지시 따르기 데이터로 훈련된 강력한 3DLLM인 Robin3D를 소개합니다. RIG는 두 가지 주요 지시 데이터를 생성합니다: 1) 적대적 지시 따르기 데이터는 모델의 식별 이해력을 향상시키기 위해 부정적 및 긍정적 샘플을 혼합한 데이터를 특징으로 합니다. 2) 다양한 지시 스타일을 포함하여 모델의 일반화를 향상시키는 다양한 지시 따르기 데이터입니다. 결과적으로 344K 적대적 샘플, 508K 다양한 샘플 및 165K 벤치마크 훈련 세트 샘플로 구성된 100만 개의 지시 따르기 데이터를 구축합니다. 이러한 복잡한 지시를 더 잘 처리하기 위해 Robin3D는 먼저 관계 증강 프로젝터를 통해 공간 이해력을 향상시키고, ID-특징 결합을 통해 객체 참조 및 기준 능력을 강화합니다. Robin3D는 과거 방법들을 능가하여 5가지 널리 사용되는 3D 다중 모달 학습 벤치마크에서 우수한 성과를 보여주었으며, 작업 특정 세부 조정이 필요하지 않습니다. 특히, 우리는 참조 작업(Multi3DRefer)에서 7.8\% 향상과 캡션 작업(Scan2Cap)에서 6.9\% 향상을 달성했습니다.
English
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted
their potential in building general-purpose agents in the 3D real world, yet
challenges remain due to the lack of high-quality robust instruction-following
data, leading to limited discriminative power and generalization of 3DLLMs. In
this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale
instruction-following data generated by our novel data engine, Robust
Instruction Generation (RIG) engine. RIG generates two key instruction data: 1)
the Adversarial Instruction-following data, which features mixed negative and
positive samples to enhance the model's discriminative understanding. 2) the
Diverse Instruction-following data, which contains various instruction styles
to enhance model's generalization. As a result, we construct 1 million
instruction-following data, consisting of 344K Adversarial samples, 508K
Diverse samples, and 165K benchmark training set samples. To better handle
these complex instructions, Robin3D first incorporates Relation-Augmented
Projector to enhance spatial understanding, and then strengthens the object
referring and grounding ability through ID-Feature Bonding. Robin3D
consistently outperforms previous methods across five widely-used 3D multimodal
learning benchmarks, without the need for task-specific fine-tuning. Notably,
we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\%
improvement in the captioning task (Scan2Cap).Summary
AI-Generated Summary