OmniCreator: Generazione Unificata Auto-supervisionata con Modifica Universale

OmniCreator: Self-Supervised Unified Generation with Universal Editing

December 3, 2024
Autori: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI

Abstract

Introduciamo OmniCreator, un nuovo framework in grado di condurre la generazione unificata (immagine+video) guidata dal testo e l'editing, tutto in un'unica piattaforma. OmniCreator acquisisce capacità generative ed universali di editing in maniera auto-supervisionata, utilizzando coppie originali di testo e video come condizioni e sfruttando lo stesso video come obiettivo di denoising per apprendere la corrispondenza semantica tra video e testo. Durante l'inferenza, quando presentato con un prompt di testo e un video, OmniCreator è in grado di generare un risultato fedele ad entrambi, ottenendo un effetto di editing universale non vincolato rispetto al lavoro di editing esistente che si concentra principalmente su determinati tipi di editing o si basa su controlli aggiuntivi (ad esempio, condizioni strutturali, caratteristiche di attenzione o inversione DDIM). D'altra parte, quando presentato solo con un prompt di testo, OmniCreator diventa generativo, producendo video di alta qualità come risultato della corrispondenza semantica appresa. È importante notare che le stesse capacità si estendono anche alle immagini, rendendo OmniCreator un framework veramente unificato. Inoltre, a causa della mancanza di benchmark esistenti per l'editing generativo di video, introduciamo il dataset OmniBench-99, progettato per valutare in modo esaustivo le prestazioni dei modelli di editing generativo di video. Estesi esperimenti dimostrano che OmniCreator mostra una sostanziale superiorità su tutti gli altri modelli.
English
We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.

Summary

AI-Generated Summary

PDF143December 4, 2024