Унифицированная модель видеодействий
Unified Video Action Model
February 28, 2025
Авторы: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Аннотация
Унифицированная модель видео и действий обладает значительным потенциалом для робототехники, где видео предоставляют богатую информацию о сцене для прогнозирования действий, а действия предоставляют динамическую информацию для прогнозирования видео. Однако эффективное объединение генерации видео и прогнозирования действий остается сложной задачей, и современные методы, основанные на генерации видео, не могут сравниться с прямым обучением политик по точности действий и скорости вывода. Чтобы преодолеть этот разрыв, мы представляем Унифицированную модель видео и действий (UVA), которая совместно оптимизирует прогнозирование видео и действий для достижения высокой точности и эффективного вывода действий. Ключевым моментом является изучение совместного латентного представления видео и действий и разделение декодирования видео и действий. Совместное латентное представление связывает визуальную и деятельностную области, эффективно моделируя взаимосвязь между последовательностями видео и действий. В то же время разделенное декодирование, поддерживаемое двумя легковесными диффузионными головками, позволяет осуществлять высокоскоростной вывод действий, минуя генерацию видео во время вывода. Такой унифицированный фреймворк также обеспечивает многофункциональность благодаря обучению с маскированными входными данными. Избирательно маскируя действия или видео, одна модель может решать разнообразные задачи, выходящие за рамки обучения политик, такие как моделирование прямой и обратной динамики и генерация видео. В ходе обширного набора экспериментов мы демонстрируем, что UVA может служить универсальным решением для широкого спектра задач робототехники, таких как обучение политик, прогнозирование прямой/обратной динамики и видео наблюдений, не уступая по производительности методам, разработанным для конкретных приложений. Результаты лучше всего просматривать на https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary