MotiF: Fazendo o Texto Contar na Animação de Imagens com Perda Focal de Movimento
MotiF: Making Text Count in Image Animation with Motion Focal Loss
December 20, 2024
Autores: Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin
cs.AI
Resumo
A geração de Vídeo a partir de Texto-Imagem (TI2V) tem como objetivo gerar um vídeo a partir de uma imagem seguindo uma descrição de texto, também conhecida como animação de imagem guiada por texto. A maioria dos métodos existentes enfrenta dificuldades para gerar vídeos que se alinhem bem com as instruções de texto, especialmente quando o movimento é especificado. Para superar essa limitação, introduzimos o MotiF, uma abordagem simples, porém eficaz, que direciona o aprendizado do modelo para as regiões com mais movimento, melhorando assim o alinhamento de texto e a geração de movimento. Utilizamos fluxo óptico para gerar um mapa de calor de movimento e ponderamos a perda de acordo com a intensidade do movimento. Esse objetivo modificado resulta em melhorias significativas e complementa os métodos existentes que utilizam premissas de movimento como entradas do modelo. Além disso, devido à falta de um benchmark diversificado para avaliar a geração TI2V, propomos o TI2V Bench, um conjunto de dados composto por 320 pares de imagem-texto para uma avaliação robusta. Apresentamos um protocolo de avaliação humana que solicita aos anotadores que selecionem uma preferência geral entre dois vídeos, seguida de suas justificativas. Através de uma avaliação abrangente no TI2V Bench, o MotiF supera nove modelos de código aberto, alcançando uma preferência média de 72%. O TI2V Bench está disponível em https://wang-sj16.github.io/motif/.
English
Text-Image-to-Video (TI2V) generation aims to generate a video from an image
following a text description, which is also referred to as text-guided image
animation. Most existing methods struggle to generate videos that align well
with the text prompts, particularly when motion is specified. To overcome this
limitation, we introduce MotiF, a simple yet effective approach that directs
the model's learning to the regions with more motion, thereby improving the
text alignment and motion generation. We use optical flow to generate a motion
heatmap and weight the loss according to the intensity of the motion. This
modified objective leads to noticeable improvements and complements existing
methods that utilize motion priors as model inputs. Additionally, due to the
lack of a diverse benchmark for evaluating TI2V generation, we propose TI2V
Bench, a dataset consists of 320 image-text pairs for robust evaluation. We
present a human evaluation protocol that asks the annotators to select an
overall preference between two videos followed by their justifications. Through
a comprehensive evaluation on TI2V Bench, MotiF outperforms nine open-sourced
models, achieving an average preference of 72%. The TI2V Bench is released in
https://wang-sj16.github.io/motif/.Summary
AI-Generated Summary