Avvio dell'apprendimento della navigazione guidata dal linguaggio con il meccanismo di auto-ottimizzazione del volano dei dati.
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
December 11, 2024
Autori: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
cs.AI
Abstract
Creare dati di alta qualità per addestrare agenti linguistici robusti è una sfida duratura nell'ambito dell'IA incorporata. In questo articolo, presentiamo un Ciclo di Feedback di Dati Auto-Perfezionante (SRDF) che genera coppie di istruzioni di navigazione-traiettoria di alta qualità e su larga scala attraverso il raffinamento iterativo del pool di dati tramite la collaborazione tra due modelli, il generatore di istruzioni e il navigatore, senza alcuna annotazione umana nel processo. In particolare, SRDF inizia utilizzando un generatore di base per creare un pool di dati iniziale per addestrare un navigatore di base, seguito dall'applicazione del navigatore addestrato per filtrare il pool di dati. Ciò porta a dati di maggiore fedeltà per addestrare un generatore migliore, che a sua volta può produrre dati di alta qualità per addestrare il navigatore del round successivo. Tale meccanismo crea un processo di auto-raffinamento dei dati, generando un dataset continuamente migliorato ed altamente efficace per l'apprendimento della navigazione guidata dal linguaggio su larga scala. I nostri esperimenti dimostrano che dopo diversi cicli del meccanismo, il navigatore aumenta il limite di prestazioni dal 70% al 78% SPL sul classico set di test R2R, superando per la prima volta le prestazioni umane (76%). Nel frattempo, questo processo porta a un generatore superiore, evidenziato da un aumento di SPICE da 23,5 a 26,2, migliore di tutti i metodi precedenti di generazione di istruzioni VLN. Infine, dimostriamo la scalabilità del nostro metodo attraverso l'aumento dell'ambiente e della diversità delle istruzioni, e la capacità di generalizzazione del nostro navigatore pre-addestrato su vari compiti di navigazione successivi, superando di gran lunga i metodi all'avanguardia in tutti i casi.
English
Creating high-quality data for training robust language-instructed agents is
a long-lasting challenge in embodied AI. In this paper, we introduce a
Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale
navigational instruction-trajectory pairs by iteratively refining the data pool
through the collaboration between two models, the instruction generator and the
navigator, without any human-in-the-loop annotation. Specifically, SRDF starts
with using a base generator to create an initial data pool for training a base
navigator, followed by applying the trained navigator to filter the data pool.
This leads to higher-fidelity data to train a better generator, which can, in
turn, produce higher-quality data for training the next-round navigator. Such a
flywheel establishes a data self-refining process, yielding a continuously
improved and highly effective dataset for large-scale language-guided
navigation learning. Our experiments demonstrate that after several flywheel
rounds, the navigator elevates the performance boundary from 70% to 78% SPL on
the classic R2R test set, surpassing human performance (76%) for the first
time. Meanwhile, this process results in a superior generator, evidenced by a
SPICE increase from 23.5 to 26.2, better than all previous VLN instruction
generation methods. Finally, we demonstrate the scalability of our method
through increasing environment and instruction diversity, and the
generalization ability of our pre-trained navigator across various downstream
navigation tasks, surpassing state-of-the-art methods by a large margin in all
cases.Summary
AI-Generated Summary