Рефлексивное планирование: модели видео-языков для многоэтапной долгосрочной робототехнической манипуляции
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation
February 23, 2025
Авторы: Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
cs.AI
Аннотация
Решение сложных задач манипулирования роботов с длительным горизонтом требует высокоуровневых планировочных возможностей, способности рассуждать о физическом мире и реактивного выбора соответствующих моторных навыков. Модели видения-языка (VLM), предварительно обученные на данных из Интернета, в принципе могут предложить рамочное решение для решения таких проблем. Однако в их текущей форме VLM лишены как тонкого понимания сложной физики, необходимой для робототехнического манипулирования, так и способности рассуждать на длительных горизонтах для решения проблем накапливания ошибок. В данной статье мы представляем новую рамочную вычислительную модель для тестирования, которая улучшает возможности физического рассуждения VLM для многоэтапных задач манипулирования. В центре нашего подхода лежит итеративное улучшение предварительно обученного VLM с механизмом "отражения" - он использует генеративную модель для воображения будущих состояний мира, использует эти предсказания для направления выбора действий и критически отражается на потенциальных подоптимальностях для уточнения своего рассуждения. Экспериментальные результаты демонстрируют, что наш метод значительно превосходит несколько современных коммерческих VLM, а также другие подходы послеобучения, такие как Монте-Карло деревоискатель (MCTS). Видеоролики доступны на https://reflect-vlm.github.io.
English
Solving complex long-horizon robotic manipulation problems requires
sophisticated high-level planning capabilities, the ability to reason about the
physical world, and reactively choose appropriate motor skills. Vision-language
models (VLMs) pretrained on Internet data could in principle offer a framework
for tackling such problems. However, in their current form, VLMs lack both the
nuanced understanding of intricate physics required for robotic manipulation
and the ability to reason over long horizons to address error compounding
issues. In this paper, we introduce a novel test-time computation framework
that enhances VLMs' physical reasoning capabilities for multi-stage
manipulation tasks. At its core, our approach iteratively improves a pretrained
VLM with a "reflection" mechanism - it uses a generative model to imagine
future world states, leverages these predictions to guide action selection, and
critically reflects on potential suboptimalities to refine its reasoning.
Experimental results demonstrate that our method significantly outperforms
several state-of-the-art commercial VLMs as well as other post-training
approaches such as Monte Carlo Tree Search (MCTS). Videos are available at
https://reflect-vlm.github.io.Summary
AI-Generated Summary