PhysGen: 강체 물리학 기반 이미지에서 비디오 생성
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
September 27, 2024
저자: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI
초록
우리는 PhysGen을 제시합니다. 이는 단일 이미지와 입력 조건(예: 이미지 내 객체에 적용된 힘과 토크)을 변환하여 현실적이고 물리적으로 타당하며 시간적으로 일관된 비디오를 생성하는 혁신적인 이미지에서 비디오로의 생성 방법입니다. 우리의 주요 통찰력은 모델 기반 물리적 시뮬레이션과 데이터 기반 비디오 생성 과정을 통합하여 가능한 이미지 공간 역학을 활성화하는 데 있습니다. 우리 시스템의 핵심 요소는 세 가지 핵심 구성 요소로 이루어져 있습니다: (i) 이미지 이해 모듈은 이미지의 기하학, 재료 및 물리적 매개변수를 효과적으로 포착합니다; (ii) 이미지 공간 역학 시뮬레이션 모델은 강체 물리학과 추정된 매개변수를 활용하여 현실적인 행동을 시뮬레이션합니다; 그리고 (iii) 생성적 비디오 확산을 활용하여 실제 움직임을 특징으로 하는 현실적인 비디오 영상을 생성하는 이미지 기반 렌더링 및 정제 모듈입니다. 결과적으로 생성된 비디오는 물리학적으로나 외관적으로 현실적이며 심지어 정밀하게 제어할 수 있으며, 양적 비교 및 포괄적 사용자 연구를 통해 기존 데이터 기반 이미지에서 비디오로의 생성 작업보다 우수한 결과를 보여주고 있습니다. PhysGen의 결과 비디오는 이미지를 현실적인 애니메이션으로 변환하거나 사용자가 이미지와 상호 작용하여 다양한 역학을 만들 수 있는 등 다양한 하류 응용 프로그램에 사용할 수 있습니다. 프로젝트 페이지: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a
single image and an input condition (e.g., force and torque applied to an
object in the image) to produce a realistic, physically plausible, and
temporally consistent video. Our key insight is to integrate model-based
physical simulation with a data-driven video generation process, enabling
plausible image-space dynamics. At the heart of our system are three core
components: (i) an image understanding module that effectively captures the
geometry, materials, and physical parameters of the image; (ii) an image-space
dynamics simulation model that utilizes rigid-body physics and inferred
parameters to simulate realistic behaviors; and (iii) an image-based rendering
and refinement module that leverages generative video diffusion to produce
realistic video footage featuring the simulated motion. The resulting videos
are realistic in both physics and appearance and are even precisely
controllable, showcasing superior results over existing data-driven
image-to-video generation works through quantitative comparison and
comprehensive user study. PhysGen's resulting videos can be used for various
downstream applications, such as turning an image into a realistic animation or
allowing users to interact with the image and create various dynamics. Project
page: https://stevenlsw.github.io/physgen/Summary
AI-Generated Summary