동일: 상태 적응형 전문가 혼합을 이용한 일반적 언어 안내 시각 내비게이션 학습
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
저자: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
초록
학문 분야인 학습 지시 안내 비주얼 네비게이션은 일반적으로 언어 지시의 세분화에 따라 고수준 범주별 검색과 저수준 언어 안내 네비게이션으로 일반적으로 분류될 수 있으며, 전자는 탐사 과정을 강조하는 반면 후자는 자세한 텍스트 명령을 따르는 데 집중합니다. 이러한 작업의 중점이 다르지만, 지시 해석, 주변 환경 이해, 행동 결정 추론의 기본적인 요구 사항은 일관되게 유지됩니다. 본 논문은 다양한 네비게이션 작업을 통합적이고 일반적인 프레임워크로 통합함으로써, 학습 네비게이션에서 일반적인 지식 공유와 작업별 능력 활용의 핵심 어려움을 조사하고 State-Adaptive Mixture of Experts (SAME) 모델을 제안합니다. SAME은 다양한 세분화 언어와 동적 관측에 기반한 결정 추론을 효과적으로 가능하게 하며, SAME을 통해 여러 네비게이션 작업을 동시에 처리할 수 있는 다재다능한 에이전트를 제시합니다. 이 에이전트는 작업별 에이전트보다 우수한 성능을 보이거나 매우 유사한 성능을 달성합니다.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.