ROCKET-1: Meistern Sie die Interaktion in offenen Welten mit visuell-zeitlichem Kontext Aufforderung
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Autoren: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Zusammenfassung
Vision-Sprachmodelle (VLMs) haben sich in multimodalen Aufgaben hervorgetan, aber ihre Anpassung an verkörperte Entscheidungsfindung in offenen Umgebungen birgt Herausforderungen. Ein zentrales Problem besteht darin, individuelle Entitäten in Niedriglevel-Beobachtungen nahtlos mit den abstrakten Konzepten, die für die Planung erforderlich sind, zu verbinden. Ein gängiger Ansatz zur Bewältigung dieses Problems besteht darin, hierarchische Agenten einzusetzen, bei denen VLMs als hochrangige Denker fungieren, die Aufgaben in ausführbare Teilaufgaben zerlegen, die typischerweise unter Verwendung von Sprache und vorgestellten Beobachtungen spezifiziert sind. Allerdings versagt Sprache oft dabei, räumliche Informationen effektiv zu vermitteln, während die Generierung zukünftiger Bilder mit ausreichender Genauigkeit nach wie vor eine Herausforderung darstellt. Um diese Einschränkungen zu überwinden, schlagen wir visuell-zeitliche Kontextanregung vor, ein neuartiges Kommunikationsprotokoll zwischen VLMs und Richtlinienmodellen. Dieses Protokoll nutzt die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen, um Richtlinien-Umgebungsinteraktionen zu lenken. Unter Verwendung dieses Ansatzes trainieren wir ROCKET-1, eine Niedriglevel-Richtlinie, die Aktionen basierend auf konkatenierten visuellen Beobachtungen und Segmentierungsmasken vorhersagt, wobei Echtzeit-Objektverfolgung durch SAM-2 bereitgestellt wird. Unsere Methode erschließt das volle Potenzial der visuell-sprachlichen Denkfähigkeiten von VLMs und ermöglicht es ihnen, komplexe kreative Aufgaben zu lösen, insbesondere solche, die stark auf räumlichem Verständnis beruhen. Experimente in Minecraft zeigen, dass unser Ansatz Agenten ermöglicht, zuvor unerreichbare Aufgaben zu bewältigen, was die Wirksamkeit der visuell-zeitlichen Kontextanregung bei verkörperter Entscheidungsfindung hervorhebt. Codes und Demos sind auf der Projektseite verfügbar: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary