MotiF: Far Contare il Testo nell'Animazione delle Immagini con la Perdita Focale del Movimento

MotiF: Making Text Count in Image Animation with Motion Focal Loss

December 20, 2024
Autori: Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin
cs.AI

Abstract

La generazione di Video da Testo-Immagine (TI2V) mira a generare un video da un'immagine seguendo una descrizione testuale, anche nota come animazione guidata dal testo. La maggior parte dei metodi esistenti fatica a generare video che si allineano bene con le indicazioni testuali, specialmente quando viene specificato il movimento. Per superare questa limitazione, presentiamo MotiF, un approccio semplice ma efficace che guida l'apprendimento del modello verso le regioni con maggiore movimento, migliorando così l'allineamento del testo e la generazione del movimento. Utilizziamo il flusso ottico per generare una mappa di movimento e ponderare la perdita in base all'intensità del movimento. Questo obiettivo modificato porta a miglioramenti significativi e integra i metodi esistenti che utilizzano i priori di movimento come input del modello. Inoltre, a causa della mancanza di un benchmark diversificato per valutare la generazione TI2V, proponiamo TI2V Bench, un dataset composto da 320 coppie immagine-testo per una valutazione robusta. Presentiamo un protocollo di valutazione umana che chiede agli annotatori di selezionare una preferenza complessiva tra due video seguita dalle loro giustificazioni. Attraverso una valutazione completa su TI2V Bench, MotiF supera nove modelli open-source, ottenendo una preferenza media del 72%. TI2V Bench è disponibile su https://wang-sj16.github.io/motif/.
English
Text-Image-to-Video (TI2V) generation aims to generate a video from an image following a text description, which is also referred to as text-guided image animation. Most existing methods struggle to generate videos that align well with the text prompts, particularly when motion is specified. To overcome this limitation, we introduce MotiF, a simple yet effective approach that directs the model's learning to the regions with more motion, thereby improving the text alignment and motion generation. We use optical flow to generate a motion heatmap and weight the loss according to the intensity of the motion. This modified objective leads to noticeable improvements and complements existing methods that utilize motion priors as model inputs. Additionally, due to the lack of a diverse benchmark for evaluating TI2V generation, we propose TI2V Bench, a dataset consists of 320 image-text pairs for robust evaluation. We present a human evaluation protocol that asks the annotators to select an overall preference between two videos followed by their justifications. Through a comprehensive evaluation on TI2V Bench, MotiF outperforms nine open-sourced models, achieving an average preference of 72%. The TI2V Bench is released in https://wang-sj16.github.io/motif/.

Summary

AI-Generated Summary

PDF62December 25, 2024