비디오JAM: 향상된 동영상 모델의 동작 생성을 위한 공동 외모-동작 표현
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
저자: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
초록
최근의 엄청난 발전에도 불구하고, 생성적 비디오 모델은 여전히 현실 세계의 움직임, 역학 및 물리를 포착하는 데 어려움을 겪고 있습니다. 이 한계는 기존의 픽셀 재구성 목표에서 비롯되며, 모델을 움직임 일관성의 비용으로 외관 믿음성으로 편향시킨다는 것을 보여줍니다. 이를 해결하기 위해 우리는 VideoJAM을 소개합니다. 이는 모델이 공동 외관-움직임 표현을 학습하도록 장려함으로써 비디오 생성기에 효과적인 움직임 사전을 주입하는 혁신적인 프레임워크입니다. VideoJAM은 두 가지 보완적인 유닛으로 구성됩니다. 훈련 중에 우리는 생성된 픽셀과 해당 움직임을 단일 학습된 표현으로부터 예측하는 목표를 확장합니다. 추론 중에는 Inner-Guidance를 도입하여, 모델의 진화하는 움직임 예측을 동적 가이드 신호로 활용하여 일관된 움직임으로 생성을 이끕니다. 특히, 우리의 프레임워크는 최소한의 수정으로 어떤 비디오 모델에도 적용될 수 있으며, 훈련 데이터의 수정이나 모델의 스케일링이 필요하지 않습니다. VideoJAM은 움직임 일관성에서 최고 수준의 성능을 달성하며, 매우 경쟁력 있는 전용 모델을 능가하면서 생성물의 시각적 품질을 향상시킵니다. 이 연구 결과는 외관과 움직임이 보완적일 수 있으며, 효과적으로 통합될 때 비디오 생성물의 시각적 품질과 일관성을 향상시킬 수 있다는 점을 강조합니다. 프로젝트 웹사이트: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary