자가 정제 데이터 플라이휠을 활용한 부트스트래핑 언어 안내형 학습
Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel
December 11, 2024
저자: Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang
cs.AI
초록
강인한 언어 지시 에이전트를 훈련시키기 위한 고품질 데이터를 생성하는 것은 신체적 AI에서 오랜 기간 동안 지속되어 온 과제입니다. 본 논문에서는 인간의 개입 없이 두 모델, 즉 지시 생성기와 내비게이터 간의 협업을 통해 데이터 풀을 반복적으로 개선하여 고품질과 대규모의 항법 지시-궤적 쌍을 생성하는 Self-Refining Data Flywheel (SRDF)를 소개합니다. 구체적으로 SRDF는 초기 데이터 풀을 생성하기 위해 기본 생성기를 사용하여 기본 내비게이터를 훈련한 후, 훈련된 내비게이터를 사용하여 데이터 풀을 필터링하는 과정을 거칩니다. 이는 더 나은 생성기를 훈련시키기 위한 고정도 데이터로 이어지며, 이는 다시 더 나은 내비게이터를 훈련시키기 위한 고품질 데이터를 생성할 수 있습니다. 이러한 플라이휠은 데이터 자체 개선 프로세스를 확립하여 지속적으로 향상된 매우 효과적인 대규모 언어 지도 항법 학습용 데이터셋을 제공합니다. 실험 결과는 여러 플라이휠 라운드 이후 내비게이터가 클래식 R2R 테스트 세트에서 70%에서 78% SPL로 성능 경계를 높여, 인간의 성능(76%)을 처음으로 능가함을 보여줍니다. 동시에 이 과정은 SPICE가 23.5에서 26.2로 증가하여 이전 VLN 지시 생성 방법보다 우수한 생성기를 보여주었습니다. 마지막으로, 우리의 방법의 확장성을 증명하기 위해 환경 및 지시 다양성을 늘리고, 사전 훈련된 내비게이터의 일반화 능력을 각종 하류 항법 작업에서 상당히 뛰어나게 나타냄으로써 모든 경우에서 최첨단 방법을 크게 능가했습니다.
English
Creating high-quality data for training robust language-instructed agents is
a long-lasting challenge in embodied AI. In this paper, we introduce a
Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale
navigational instruction-trajectory pairs by iteratively refining the data pool
through the collaboration between two models, the instruction generator and the
navigator, without any human-in-the-loop annotation. Specifically, SRDF starts
with using a base generator to create an initial data pool for training a base
navigator, followed by applying the trained navigator to filter the data pool.
This leads to higher-fidelity data to train a better generator, which can, in
turn, produce higher-quality data for training the next-round navigator. Such a
flywheel establishes a data self-refining process, yielding a continuously
improved and highly effective dataset for large-scale language-guided
navigation learning. Our experiments demonstrate that after several flywheel
rounds, the navigator elevates the performance boundary from 70% to 78% SPL on
the classic R2R test set, surpassing human performance (76%) for the first
time. Meanwhile, this process results in a superior generator, evidenced by a
SPICE increase from 23.5 to 26.2, better than all previous VLN instruction
generation methods. Finally, we demonstrate the scalability of our method
through increasing environment and instruction diversity, and the
generalization ability of our pre-trained navigator across various downstream
navigation tasks, surpassing state-of-the-art methods by a large margin in all
cases.Summary
AI-Generated Summary