MotiF: 움직임 초점 손실을 사용하여 이미지 애니메이션에서 텍스트를 중요하게 만들기
MotiF: Making Text Count in Image Animation with Motion Focal Loss
December 20, 2024
저자: Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin
cs.AI
초록
텍스트-이미지-비디오(TI2V) 생성은 이미지에서 비디오를 생성하는 것을 목표로 하며, 해당 프로세스는 텍스트 설명에 따라 진행되며 텍스트로 안내되는 이미지 애니메이션으로도 불립니다. 대부분의 기존 방법은 특히 움직임이 명시된 경우 텍스트 프롬프트와 잘 일치하는 비디오를 생성하는 데 어려움을 겪습니다. 이 제한을 극복하기 위해 MotiF를 소개합니다. 이는 모델의 학습을 더 많은 움직임이 있는 영역으로 유도하여 텍스트 정렬과 움직임 생성을 개선하는 간단하면서도 효과적인 방법입니다. 우리는 광학 흐름을 사용하여 움직임 히트맵을 생성하고 움직임의 강도에 따라 손실을 가중시킵니다. 이 수정된 목표는 현저한 개선을 이끌어내며 모델 입력으로 움직임 사전을 활용하는 기존 방법을 보완합니다. 또한, TI2V 생성을 평가하기 위한 다양한 기준이 부족한 점을 감안하여, 견고한 평가를 위한 320개의 이미지-텍스트 쌍으로 구성된 데이터셋인 TI2V Bench를 제안합니다. 우리는 주관자들이 두 비디오 중 선호도를 선택하고 그 이유를 설명하도록 하는 인간 평가 프로토콜을 제시합니다. TI2V Bench에서의 포괄적인 평가를 통해, MotiF는 9개의 오픈 소스 모델을 능가하여 72%의 평균 선호도를 달성합니다. TI2V Bench는 https://wang-sj16.github.io/motif/에서 공개되었습니다.
English
Text-Image-to-Video (TI2V) generation aims to generate a video from an image
following a text description, which is also referred to as text-guided image
animation. Most existing methods struggle to generate videos that align well
with the text prompts, particularly when motion is specified. To overcome this
limitation, we introduce MotiF, a simple yet effective approach that directs
the model's learning to the regions with more motion, thereby improving the
text alignment and motion generation. We use optical flow to generate a motion
heatmap and weight the loss according to the intensity of the motion. This
modified objective leads to noticeable improvements and complements existing
methods that utilize motion priors as model inputs. Additionally, due to the
lack of a diverse benchmark for evaluating TI2V generation, we propose TI2V
Bench, a dataset consists of 320 image-text pairs for robust evaluation. We
present a human evaluation protocol that asks the annotators to select an
overall preference between two videos followed by their justifications. Through
a comprehensive evaluation on TI2V Bench, MotiF outperforms nine open-sourced
models, achieving an average preference of 72%. The TI2V Bench is released in
https://wang-sj16.github.io/motif/.