Agent-to-Sim : Apprentissage de modèles de comportement interactif à partir de vidéos longitudinales informelles
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
October 21, 2024
Auteurs: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI
Résumé
Nous présentons Agent-to-Sim (ATS), un cadre pour apprendre des modèles de comportement interactif d'agents 3D à partir de collections vidéo longitudinales décontractées. Contrairement aux travaux antérieurs qui reposent sur un suivi basé sur des marqueurs et des caméras multi-vues, ATS apprend les comportements naturels des agents animaux et humains de manière non invasive à travers des observations vidéo enregistrées sur une longue période (par exemple, un mois) dans un environnement unique. Modéliser le comportement 3D d'un agent nécessite un suivi 3D persistant (par exemple, savoir quel point correspond à quel point) sur une longue période. Pour obtenir de telles données, nous développons une méthode d'enregistrement grossier à fin qui suit l'agent et la caméra dans le temps à travers un espace 3D canonique, aboutissant à une représentation spacetime 4D complète et persistante. Nous entraînons ensuite un modèle génératif de comportements d'agent en utilisant des données appariées de perception et de mouvement d'un agent interrogées à partir de la reconstruction 4D. ATS permet le transfert du réel à la simulation à partir d'enregistrements vidéo d'un agent vers un simulateur de comportement interactif. Nous présentons des résultats sur des animaux de compagnie (par exemple, chat, chien, lapin) et des humains à partir de vidéos RGBD monoculaires capturées par un smartphone.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior
models of 3D agents from casual longitudinal video collections. Different from
prior works that rely on marker-based tracking and multiview cameras, ATS
learns natural behaviors of animal and human agents non-invasively through
video observations recorded over a long time-span (e.g., a month) in a single
environment. Modeling 3D behavior of an agent requires persistent 3D tracking
(e.g., knowing which point corresponds to which) over a long time period. To
obtain such data, we develop a coarse-to-fine registration method that tracks
the agent and the camera over time through a canonical 3D space, resulting in a
complete and persistent spacetime 4D representation. We then train a generative
model of agent behaviors using paired data of perception and motion of an agent
queried from the 4D reconstruction. ATS enables real-to-sim transfer from video
recordings of an agent to an interactive behavior simulator. We demonstrate
results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos
captured by a smartphone.Summary
AI-Generated Summary