STESSO: Apprendimento della navigazione visiva guidata dal linguaggio generico con Mischia di Esperti Adattivi allo Stato
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
December 7, 2024
Autori: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu
cs.AI
Abstract
Il campo accademico della navigazione visiva guidata dall'istruzione apprendimento può essere generalmente categorizzato in ricerca specifica di categoria ad alto livello e navigazione guidata dal linguaggio a basso livello, a seconda della granularità dell'istruzione linguistica, in cui il primo enfatizza il processo di esplorazione, mentre il secondo si concentra sul seguire comandi testuali dettagliati. Nonostante i diversi focus di questi compiti, i requisiti sottostanti di interpretare le istruzioni, comprendere l'ambiente circostante e dedurre decisioni d'azione rimangono coerenti. Questo articolo unisce diverse attività di navigazione in un quadro unificato e generico -- esaminiamo le difficoltà principali nel condividere conoscenze generali e sfruttare capacità specifiche del compito nell'apprendimento della navigazione e proponiamo un nuovo modello State-Adaptive Mixture of Experts (SAME) che consente efficacemente a un agente di dedurre decisioni basate su istruzioni di diverse granularità e osservazioni dinamiche. Supportato da SAME, presentiamo un agente versatile in grado di affrontare contemporaneamente sette compiti di navigazione che supera o raggiunge prestazioni altamente comparabili agli agenti specifici del compito.
English
The academic field of learning instruction-guided visual navigation can be
generally categorized into high-level category-specific search and low-level
language-guided navigation, depending on the granularity of language
instruction, in which the former emphasizes the exploration process, while the
latter concentrates on following detailed textual commands. Despite the
differing focuses of these tasks, the underlying requirements of interpreting
instructions, comprehending the surroundings, and inferring action decisions
remain consistent. This paper consolidates diverse navigation tasks into a
unified and generic framework -- we investigate the core difficulties of
sharing general knowledge and exploiting task-specific capabilities in learning
navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model
that effectively enables an agent to infer decisions based on
different-granularity language and dynamic observations. Powered by SAME, we
present a versatile agent capable of addressing seven navigation tasks
simultaneously that outperforms or achieves highly comparable performance to
task-specific agents.Summary
AI-Generated Summary