Agent-to-Sim : Apprentissage de modèles de comportement interactif à partir de vidéos longitudinales informelles

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

October 21, 2024
Auteurs: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI

Résumé

Nous présentons Agent-to-Sim (ATS), un cadre pour apprendre des modèles de comportement interactif d'agents 3D à partir de collections vidéo longitudinales décontractées. Contrairement aux travaux antérieurs qui reposent sur un suivi basé sur des marqueurs et des caméras multi-vues, ATS apprend les comportements naturels des agents animaux et humains de manière non invasive à travers des observations vidéo enregistrées sur une longue période (par exemple, un mois) dans un environnement unique. Modéliser le comportement 3D d'un agent nécessite un suivi 3D persistant (par exemple, savoir quel point correspond à quel point) sur une longue période. Pour obtenir de telles données, nous développons une méthode d'enregistrement grossier à fin qui suit l'agent et la caméra dans le temps à travers un espace 3D canonique, aboutissant à une représentation spacetime 4D complète et persistante. Nous entraînons ensuite un modèle génératif de comportements d'agent en utilisant des données appariées de perception et de mouvement d'un agent interrogées à partir de la reconstruction 4D. ATS permet le transfert du réel à la simulation à partir d'enregistrements vidéo d'un agent vers un simulateur de comportement interactif. Nous présentons des résultats sur des animaux de compagnie (par exemple, chat, chien, lapin) et des humains à partir de vidéos RGBD monoculaires capturées par un smartphone.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

Summary

AI-Generated Summary

PDF52November 16, 2024