ROCKET-1: Padroneggiare l'Interazione Open-World con Contesto Visivo-Temporale
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting
October 23, 2024
Autori: Shaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang
cs.AI
Abstract
I modelli visione-linguaggio (VLM) si sono distinti nelle attività multimodali, ma adattarli alla presa di decisioni incarnata in ambienti di mondo aperto presenta sfide. Un problema chiave è la difficoltà nel collegare in modo fluido entità individuali nelle osservazioni a basso livello con concetti astratti necessari per la pianificazione. Un approccio comune per affrontare questo problema è attraverso l'uso di agenti gerarchici, dove i VLM fungono da ragionatori di alto livello che suddividono i compiti in sotto-compiti eseguibili, tipicamente specificati utilizzando il linguaggio e osservazioni immaginate. Tuttavia, il linguaggio spesso non riesce a trasmettere efficacemente informazioni spaziali, mentre generare immagini future con sufficiente precisione rimane una sfida. Per affrontare queste limitazioni, proponiamo un prompting di contesto visivo-temporale, un nuovo protocollo di comunicazione tra i VLM e i modelli di politica. Questo protocollo sfrutta la segmentazione degli oggetti dalle osservazioni passate e presenti per guidare le interazioni politica-ambiente. Utilizzando questo approccio, addestriamo ROCKET-1, una politica a basso livello che predice azioni basate su osservazioni visive concatenate e maschere di segmentazione, con il tracciamento degli oggetti in tempo reale fornito da SAM-2. Il nostro metodo sblocca il pieno potenziale delle capacità di ragionamento visivo-linguistico dei VLM, consentendo loro di risolvere compiti creativi complessi, specialmente quelli fortemente dipendenti dalla comprensione spaziale. Gli esperimenti in Minecraft dimostrano che il nostro approccio consente agli agenti di completare compiti precedentemente irraggiungibili, evidenziando l'efficacia del prompting di contesto visivo-temporale nella presa di decisioni incarnata. Codici e dimostrazioni saranno disponibili sulla pagina del progetto: https://craftjarvis.github.io/ROCKET-1.
English
Vision-language models (VLMs) have excelled in multimodal tasks, but adapting
them to embodied decision-making in open-world environments presents
challenges. A key issue is the difficulty in smoothly connecting individual
entities in low-level observations with abstract concepts required for
planning. A common approach to address this problem is through the use of
hierarchical agents, where VLMs serve as high-level reasoners that break down
tasks into executable sub-tasks, typically specified using language and
imagined observations. However, language often fails to effectively convey
spatial information, while generating future images with sufficient accuracy
remains challenging. To address these limitations, we propose visual-temporal
context prompting, a novel communication protocol between VLMs and policy
models. This protocol leverages object segmentation from both past and present
observations to guide policy-environment interactions. Using this approach, we
train ROCKET-1, a low-level policy that predicts actions based on concatenated
visual observations and segmentation masks, with real-time object tracking
provided by SAM-2. Our method unlocks the full potential of VLMs
visual-language reasoning abilities, enabling them to solve complex creative
tasks, especially those heavily reliant on spatial understanding. Experiments
in Minecraft demonstrate that our approach allows agents to accomplish
previously unattainable tasks, highlighting the effectiveness of
visual-temporal context prompting in embodied decision-making. Codes and demos
will be available on the project page: https://craftjarvis.github.io/ROCKET-1.Summary
AI-Generated Summary