ROCKET-1: Beheers interactie in open werelden met visueel-temporele contextuele aansturing.
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Auteurs: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Samenvatting
Visie-taalmodellen (VLM's) hebben uitgeblonken in multimodale taken, maar het aanpassen ervan aan besluitvorming in open-wereldomgevingen stelt uitdagingen. Een belangrijk probleem is de moeilijkheid om individuele entiteiten in laag-niveau observaties soepel te verbinden met abstracte concepten die nodig zijn voor planning. Een veelvoorkomende aanpak om dit probleem aan te pakken is door het gebruik van hiërarchische agenten, waarbij VLM's dienen als hoog-niveau redeneerders die taken opsplitsen in uitvoerbare subtaken, meestal gespecificeerd met behulp van taal en denkbeeldige observaties. Echter, taal slaagt er vaak niet in om ruimtelijke informatie effectief over te brengen, terwijl het genereren van toekomstige beelden met voldoende nauwkeurigheid een uitdaging blijft. Om deze beperkingen aan te pakken, stellen we visueel-temporele contextprompting voor, een nieuw communicatieprotocol tussen VLM's en beleidsmodellen. Dit protocol maakt gebruik van objectsegmentatie van zowel eerdere als huidige observaties om beleidsomgevingsinteracties te begeleiden. Met behulp van deze aanpak trainen we ROCKET-1, een laag-niveau beleid dat acties voorspelt op basis van geconcateneerde visuele observaties en segmentatiemaskers, met realtime objecttracking geleverd door SAM-2. Onze methode ontsluit het volledige potentieel van de visueel-taalredeneervaardigheden van VLM's, waardoor ze complexe creatieve taken kunnen oplossen, vooral die sterk afhankelijk zijn van ruimtelijk begrip. Experimenten in Minecraft tonen aan dat onze aanpak agenten in staat stelt om eerder onbereikbare taken uit te voeren, waarbij de effectiviteit van visueel-temporele contextprompting in besluitvorming in een omgeving wordt benadrukt. Codes en demonstraties zullen beschikbaar zijn op de projectpagina: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary