ROCKET-1 : Maîtrise de l'interaction en monde ouvert avec contexte visuel-temporel Incitation
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Auteurs: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Résumé
Les modèles vision-langage (VLM) se sont distingués dans les tâches multimodales, mais les adapter à la prise de décision incarnée dans des environnements ouverts pose des défis. Un problème clé réside dans la difficulté à connecter de manière fluide les entités individuelles dans les observations de bas niveau avec les concepts abstraits nécessaires à la planification. Une approche courante pour résoudre ce problème est l'utilisation d'agents hiérarchiques, où les VLM agissent en tant que raisonneurs de haut niveau qui décomposent les tâches en sous-tâches exécutables, généralement spécifiées à l'aide du langage et d'observations imaginées. Cependant, le langage échoue souvent à transmettre efficacement les informations spatiales, tandis que la génération d'images futures avec une précision suffisante reste un défi. Pour remédier à ces limitations, nous proposons un protocole de communication novateur entre les VLM et les modèles de politique, appelé incitation contextuelle visuelle-temporelle. Ce protocole exploite la segmentation d'objets à partir des observations passées et présentes pour guider les interactions politique-environnement. En utilisant cette approche, nous formons ROCKET-1, une politique de bas niveau qui prédit les actions en se basant sur des observations visuelles concaténées et des masques de segmentation, avec un suivi d'objets en temps réel fourni par SAM-2. Notre méthode libère tout le potentiel des capacités de raisonnement visuel-langage des VLM, leur permettant de résoudre des tâches créatives complexes, en particulier celles fortement dépendantes de la compréhension spatiale. Des expériences dans Minecraft démontrent que notre approche permet aux agents d'accomplir des tâches auparavant inaccessibles, mettant en évidence l'efficacité de l'incitation contextuelle visuelle-temporelle dans la prise de décision incarnée. Les codes et démonstrations seront disponibles sur la page du projet : https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary