DexGraspVLA: Визионно-языково-действенная структура для достижения универсального точного захвата
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
Авторы: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
Аннотация
Ловкое захватывание остается фундаментальной, но сложной задачей в робототехнике. Универсальный робот должен быть способен захватывать разнообразные объекты в произвольных сценариях. Однако существующие исследования обычно полагаются на специфические допущения, такие как настройки с одним объектом или ограниченные среды, что приводит к ограниченной обобщаемости. Наше решение — DexGraspVLA, иерархическая структура, которая использует предварительно обученную модель Vision-Language в качестве высокоуровневого планировщика задач и обучает политику на основе диффузии в качестве низкоуровневого контроллера действий. Ключевая идея заключается в итеративном преобразовании разнообразных языковых и визуальных входных данных в инвариантные к домену представления, где обучение с подражанием может быть эффективно применено благодаря смягчению сдвига домена. Таким образом, это обеспечивает устойчивую обобщаемость в широком диапазоне реальных сценариев. Примечательно, что наш метод достигает успешности более 90% в условиях тысяч комбинаций невидимых объектов, освещения и фона в среде с «нулевым обучением». Эмпирический анализ дополнительно подтверждает согласованность внутреннего поведения модели при изменении окружающей среды, тем самым подтверждая наш дизайн и объясняя его обобщающую производительность. Мы надеемся, что наша работа станет шагом вперед в достижении универсального ловкого захватывания. Наш демо-пример и код можно найти по адресу https://dexgraspvla.github.io/.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary