UniAff: 도구 사용을 위한 기회와 시각-언어 모델과의 표현 통합
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
September 30, 2024
저자: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
cs.AI
초록
로봇 조작에 관한 이전 연구들은 기본적인 3차원 움직임 제약과 affordances에 대한 제한된 이해를 기반으로 합니다. 이러한 도전에 대응하기 위해, 우리는 3차원 물체 중심의 조작과 작업 이해를 통합한 UniAff라는 포괄적인 패러다임을 제안합니다. 구체적으로, 우리는 19개 범주의 900개의 관절이 있는 물체와 12개 범주의 600개의 도구로 구성된 조작 관련 주요 속성으로 레이블이 지정된 데이터셋을 구축했습니다. 더 나아가, 우리는 MLLM을 활용하여 affordance 인식 및 3차원 움직임 제약에 대한 추론을 포함한 조작 작업을 위한 물체 중심 표현을 유도합니다. 시뮬레이션 및 현실 세팅에서의 포괄적인 실험 결과는 UniAff가 도구와 관절이 있는 물체에 대한 로봇 조작의 일반화를 크게 향상시킨다는 것을 보여줍니다. 우리는 UniAff가 미래의 통합된 로봇 조작 작업에 대한 일반적인 기준으로 기능할 것을 희망합니다. 이미지, 비디오, 데이터셋 및 코드는 프로젝트 웹사이트에서 공개되어 있습니다: https://sites.google.com/view/uni-aff/home
English
Previous studies on robotic manipulation are based on a limited understanding
of the underlying 3D motion constraints and affordances. To address these
challenges, we propose a comprehensive paradigm, termed UniAff, that integrates
3D object-centric manipulation and task understanding in a unified formulation.
Specifically, we constructed a dataset labeled with manipulation-related key
attributes, comprising 900 articulated objects from 19 categories and 600 tools
from 12 categories. Furthermore, we leverage MLLMs to infer object-centric
representations for manipulation tasks, including affordance recognition and
reasoning about 3D motion constraints. Comprehensive experiments in both
simulation and real-world settings indicate that UniAff significantly improves
the generalization of robotic manipulation for tools and articulated objects.
We hope that UniAff will serve as a general baseline for unified robotic
manipulation tasks in the future. Images, videos, dataset, and code are
published on the project website at:https://sites.google.com/view/uni-aff/homeSummary
AI-Generated Summary