에이전트-투-심: 캐주얼한 장기 비디오로부터 상호작용 행동 모델 학습
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
October 21, 2024
저자: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI
초록
우리는 Agent-to-Sim (ATS)을 제시합니다. 이는 3D 에이전트의 상호작용 행동 모델을 일반적인 종단적 비디오 컬렉션으로부터 학습하는 프레임워크입니다. ATS는 마커 기반 추적과 다중 시점 카메라에 의존하는 이전 작업과는 달리, 한 환경에서 오랜 기간(예: 한 달) 동안 기록된 비디오 관측을 통해 동물 및 인간 에이전트의 자연스러운 행동을 비침입적으로 학습합니다. 에이전트의 3D 행동을 모델링하려면 장기간에 걸쳐 지속적인 3D 추적(예: 어떤 지점이 어떤 것에 해당하는지 파악)이 필요합니다. 이러한 데이터를 얻기 위해 우리는 에이전트와 카메라를 시간에 걸쳐 정규 3D 공간을 통해 추적하는 coarse-to-fine 등록 방법을 개발하여 완전하고 지속적인 시공간 4D 표현을 얻습니다. 그런 다음 4D 재구성에서 쿼리된 에이전트의 지각 및 움직임의 짝 데이터를 사용하여 에이전트 행동의 생성 모델을 훈련합니다. ATS는 에이전트의 비디오 녹화로부터 상호작용 행동 시뮬레이터로의 실제 대 가상 전송을 가능하게 합니다. 우리는 스마트폰에 의해 촬영된 단안 RGBD 비디오로부터 애완동물(예: 고양이, 개, 토끼) 및 인간에 대한 결과를 시연합니다.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior
models of 3D agents from casual longitudinal video collections. Different from
prior works that rely on marker-based tracking and multiview cameras, ATS
learns natural behaviors of animal and human agents non-invasively through
video observations recorded over a long time-span (e.g., a month) in a single
environment. Modeling 3D behavior of an agent requires persistent 3D tracking
(e.g., knowing which point corresponds to which) over a long time period. To
obtain such data, we develop a coarse-to-fine registration method that tracks
the agent and the camera over time through a canonical 3D space, resulting in a
complete and persistent spacetime 4D representation. We then train a generative
model of agent behaviors using paired data of perception and motion of an agent
queried from the 4D reconstruction. ATS enables real-to-sim transfer from video
recordings of an agent to an interactive behavior simulator. We demonstrate
results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos
captured by a smartphone.Summary
AI-Generated Summary