Agent-to-Sim: Erlernen interaktiver Verhaltensmodelle aus informellen Längsschnittvideos

Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

October 21, 2024
Autoren: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI

Zusammenfassung

Wir präsentieren Agent-to-Sim (ATS), ein Framework zum Erlernen interaktiver Verhaltensmodelle von 3D-Agenten aus zufälligen longitudinalen Videokollektionen. Im Gegensatz zu früheren Arbeiten, die auf markerbasiertem Tracking und Multikameraperspektiven beruhen, lernt ATS natürliche Verhaltensweisen von Tier- und menschlichen Agenten nicht-invasiv durch Videoaufnahmen, die über einen langen Zeitraum (z. B. einen Monat) in einer einzigen Umgebung aufgezeichnet wurden. Die Modellierung des 3D-Verhaltens eines Agenten erfordert ein kontinuierliches 3D-Tracking (z. B. das Wissen, welcher Punkt welchem entspricht) über einen längeren Zeitraum. Um solche Daten zu erhalten, entwickeln wir eine grob-zu-fein Registrierungsmethode, die den Agenten und die Kamera im Laufe der Zeit durch einen kanonischen 3D-Raum verfolgt, was zu einer vollständigen und persistenten Raum-Zeit-4D-Repräsentation führt. Anschließend trainieren wir ein generatives Modell von Agentenverhalten unter Verwendung von gepaarten Daten zur Wahrnehmung und Bewegung eines Agenten, die aus der 4D-Rekonstruktion abgefragt wurden. ATS ermöglicht den Transfer von Echtzeit zu Simulation von Videoaufnahmen eines Agenten zu einem interaktiven Verhaltenssimulator. Wir demonstrieren die Ergebnisse an Haustieren (z. B. Katze, Hund, Hase) und Menschen anhand monokularer RGBD-Videos, die mit einem Smartphone aufgenommen wurden.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior models of 3D agents from casual longitudinal video collections. Different from prior works that rely on marker-based tracking and multiview cameras, ATS learns natural behaviors of animal and human agents non-invasively through video observations recorded over a long time-span (e.g., a month) in a single environment. Modeling 3D behavior of an agent requires persistent 3D tracking (e.g., knowing which point corresponds to which) over a long time period. To obtain such data, we develop a coarse-to-fine registration method that tracks the agent and the camera over time through a canonical 3D space, resulting in a complete and persistent spacetime 4D representation. We then train a generative model of agent behaviors using paired data of perception and motion of an agent queried from the 4D reconstruction. ATS enables real-to-sim transfer from video recordings of an agent to an interactive behavior simulator. We demonstrate results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos captured by a smartphone.

Summary

AI-Generated Summary

PDF52November 16, 2024