ChatPaper.aiChatPaper

Обучение гибридных автоматов с дискретным временем: передвижение на ногах встречается с катанием на скейтборде

Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding

March 3, 2025
Авторы: Hang Liu, Sangli Teng, Ben Liu, Wei Zhang, Maani Ghaffari
cs.AI

Аннотация

В данной статье представлен фреймворк Discrete-time Hybrid Automata Learning (DHAL), который использует обучение с подкреплением на основе политики для идентификации и выполнения переключения режимов без сегментации траекторий или обучения функции событий. Гибридные динамические системы, включающие непрерывное течение и дискретное переключение режимов, могут моделировать задачи робототехники, такие как передвижение шагающих роботов. Методы, основанные на моделях, обычно зависят от предопределенных походок, в то время как методы без моделей не обладают явными знаниями о переключении режимов. Современные подходы идентифицируют дискретные режимы через сегментацию перед регрессией непрерывного течения, однако обучение сложной динамике многомерных жестких тел без меток траекторий или сегментации остается сложной открытой проблемой. Наш подход включает бета-распределение политики и архитектуру с несколькими критиками для моделирования движений, управляемых контактами, что иллюстрируется сложной задачей катания на скейтборде четвероногого робота. Мы проверяем наш метод с помощью симуляций и реальных испытаний, демонстрируя устойчивую производительность в гибридных динамических системах.
English
This paper introduces Discrete-time Hybrid Automata Learning (DHAL), a framework using on-policy Reinforcement Learning to identify and execute mode-switching without trajectory segmentation or event function learning. Hybrid dynamical systems, which include continuous flow and discrete mode switching, can model robotics tasks like legged robot locomotion. Model-based methods usually depend on predefined gaits, while model-free approaches lack explicit mode-switching knowledge. Current methods identify discrete modes via segmentation before regressing continuous flow, but learning high-dimensional complex rigid body dynamics without trajectory labels or segmentation is a challenging open problem. Our approach incorporates a beta policy distribution and a multi-critic architecture to model contact-guided motions, exemplified by a challenging quadrupedal robot skateboard task. We validate our method through simulations and real-world tests, demonstrating robust performance in hybrid dynamical systems.

Summary

AI-Generated Summary

PDF12March 5, 2025