ChatPaper.aiChatPaper

Разнообразная управляемая политика диффузии с использованием сигнальной темпоральной логики

Diverse Controllable Diffusion Policy with Signal Temporal Logic

March 4, 2025
Авторы: Yue Meng, Chuchu fan
cs.AI

Аннотация

Создание реалистичных симуляций имеет критически важное значение для приложений автономных систем, таких как беспилотное вождение и взаимодействие человека с роботами. Однако современные симуляторы вождения по-прежнему сталкиваются с трудностями в генерации управляемых, разнообразных и соответствующих правилам поведений участников дорожного движения: модели на основе правил не способны создавать разнообразные поведения и требуют тщательной настройки, тогда как методы, основанные на обучении, имитируют политику из данных, но не предназначены для явного следования правилам. Кроме того, реальные наборы данных по своей природе являются "однорезультатными", что затрудняет генерацию разнообразных поведений с помощью методов обучения. В данной работе мы используем сигнальную временную логику (STL) и диффузионные модели для обучения управляемой, разнообразной и учитывающей правила политики. Сначала мы калибруем STL на реальных данных, затем генерируем разнообразные синтетические данные с помощью оптимизации траекторий и, наконец, обучаем скорректированную диффузионную политику на расширенном наборе данных. Мы тестируем на наборе данных NuScenes, и наш подход позволяет достичь наиболее разнообразных траекторий, соответствующих правилам, по сравнению с другими базовыми методами, при этом время выполнения составляет 1/17 от времени второго лучшего подхода. В тестировании с замкнутым циклом наш подход демонстрирует наивысшее разнообразие, уровень соблюдения правил и наименьший уровень столкновений. Наш метод может генерировать различные характеристики в зависимости от различных параметров STL в тестировании. Исследование на примере сценариев взаимодействия человека и робота показывает, что наш подход способен генерировать разнообразные траектории, близкие к эталонным. Инструмент для аннотирования, расширенный набор данных и код доступны по адресу https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Summary

AI-Generated Summary

PDF22March 6, 2025