Agent-to-Sim: Erlernen interaktiver Verhaltensmodelle aus informellen Längsschnittvideos
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos
October 21, 2024
Autoren: Gengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
cs.AI
Zusammenfassung
Wir präsentieren Agent-to-Sim (ATS), ein Framework zum Erlernen interaktiver Verhaltensmodelle von 3D-Agenten aus zufälligen longitudinalen Videokollektionen. Im Gegensatz zu früheren Arbeiten, die auf markerbasiertem Tracking und Multikameraperspektiven beruhen, lernt ATS natürliche Verhaltensweisen von Tier- und menschlichen Agenten nicht-invasiv durch Videoaufnahmen, die über einen langen Zeitraum (z. B. einen Monat) in einer einzigen Umgebung aufgezeichnet wurden. Die Modellierung des 3D-Verhaltens eines Agenten erfordert ein kontinuierliches 3D-Tracking (z. B. das Wissen, welcher Punkt welchem entspricht) über einen längeren Zeitraum. Um solche Daten zu erhalten, entwickeln wir eine grob-zu-fein Registrierungsmethode, die den Agenten und die Kamera im Laufe der Zeit durch einen kanonischen 3D-Raum verfolgt, was zu einer vollständigen und persistenten Raum-Zeit-4D-Repräsentation führt. Anschließend trainieren wir ein generatives Modell von Agentenverhalten unter Verwendung von gepaarten Daten zur Wahrnehmung und Bewegung eines Agenten, die aus der 4D-Rekonstruktion abgefragt wurden. ATS ermöglicht den Transfer von Echtzeit zu Simulation von Videoaufnahmen eines Agenten zu einem interaktiven Verhaltenssimulator. Wir demonstrieren die Ergebnisse an Haustieren (z. B. Katze, Hund, Hase) und Menschen anhand monokularer RGBD-Videos, die mit einem Smartphone aufgenommen wurden.
English
We present Agent-to-Sim (ATS), a framework for learning interactive behavior
models of 3D agents from casual longitudinal video collections. Different from
prior works that rely on marker-based tracking and multiview cameras, ATS
learns natural behaviors of animal and human agents non-invasively through
video observations recorded over a long time-span (e.g., a month) in a single
environment. Modeling 3D behavior of an agent requires persistent 3D tracking
(e.g., knowing which point corresponds to which) over a long time period. To
obtain such data, we develop a coarse-to-fine registration method that tracks
the agent and the camera over time through a canonical 3D space, resulting in a
complete and persistent spacetime 4D representation. We then train a generative
model of agent behaviors using paired data of perception and motion of an agent
queried from the 4D reconstruction. ATS enables real-to-sim transfer from video
recordings of an agent to an interactive behavior simulator. We demonstrate
results on pets (e.g., cat, dog, bunny) and human given monocular RGBD videos
captured by a smartphone.Summary
AI-Generated Summary