Code-as-Monitor: Programmazione visuale consapevole dei vincoli per la rilevazione delle anomalie reattive e proattive nei robot.

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

December 5, 2024
Autori: Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
cs.AI

Abstract

Il rilevamento automatico e la prevenzione delle anomalie di tipo open-set sono cruciali nei sistemi robotici a ciclo chiuso. Gli studi recenti spesso faticano a identificare contemporaneamente in modo reattivo le anomalie inaspettate dopo che si sono verificate e a prevenire in modo proattivo quelle prevedibili. A questo scopo, proponiamo Code-as-Monitor (CaM), un nuovo paradigma che sfrutta il modello visione-linguaggio (VLM) per il rilevamento delle anomalie reattive e proattive di tipo open-set. Il cuore del nostro metodo consiste nel formulare entrambi i compiti come un insieme unificato di problemi di soddisfazione di vincoli spazio-temporali e utilizzare il codice generato da VLM per valutarli per il monitoraggio in tempo reale. Per migliorare l'accuratezza e l'efficienza del monitoraggio, introduciamo ulteriormente elementi di vincolo che astraggono entità correlate ai vincoli o le loro parti in elementi geometrici compatti. Questo approccio offre maggiore generalità, semplifica il tracciamento e facilita la programmazione visiva consapevole dei vincoli sfruttando questi elementi come suggerimenti visivi. Gli esperimenti mostrano che CaM raggiunge un tasso di successo più alto del 28,7% e riduce il tempo di esecuzione del 31,8% in presenza di disturbi gravi rispetto alle baselines su tre simulatori e un contesto del mondo reale. Inoltre, CaM può essere integrato con politiche di controllo ad anello aperto per formare sistemi a ciclo chiuso, consentendo compiti a lungo termine in scenari affollati con ambienti dinamici.
English
Automatic detection and prevention of open-set failures are crucial in closed-loop robotic systems. Recent studies often struggle to simultaneously identify unexpected failures reactively after they occur and prevent foreseeable ones proactively. To this end, we propose Code-as-Monitor (CaM), a novel paradigm leveraging the vision-language model (VLM) for both open-set reactive and proactive failure detection. The core of our method is to formulate both tasks as a unified set of spatio-temporal constraint satisfaction problems and use VLM-generated code to evaluate them for real-time monitoring. To enhance the accuracy and efficiency of monitoring, we further introduce constraint elements that abstract constraint-related entities or their parts into compact geometric elements. This approach offers greater generality, simplifies tracking, and facilitates constraint-aware visual programming by leveraging these elements as visual prompts. Experiments show that CaM achieves a 28.7% higher success rate and reduces execution time by 31.8% under severe disturbances compared to baselines across three simulators and a real-world setting. Moreover, CaM can be integrated with open-loop control policies to form closed-loop systems, enabling long-horizon tasks in cluttered scenes with dynamic environments.

Summary

AI-Generated Summary

PDF373December 6, 2024