OmniCreator: Generazione Unificata Auto-supervisionata con Modifica Universale
OmniCreator: Self-Supervised Unified Generation with Universal Editing
December 3, 2024
Autori: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI
Abstract
Introduciamo OmniCreator, un nuovo framework in grado di condurre la generazione unificata (immagine+video) guidata dal testo e l'editing, tutto in un'unica piattaforma. OmniCreator acquisisce capacità generative ed universali di editing in maniera auto-supervisionata, utilizzando coppie originali di testo e video come condizioni e sfruttando lo stesso video come obiettivo di denoising per apprendere la corrispondenza semantica tra video e testo. Durante l'inferenza, quando presentato con un prompt di testo e un video, OmniCreator è in grado di generare un risultato fedele ad entrambi, ottenendo un effetto di editing universale non vincolato rispetto al lavoro di editing esistente che si concentra principalmente su determinati tipi di editing o si basa su controlli aggiuntivi (ad esempio, condizioni strutturali, caratteristiche di attenzione o inversione DDIM). D'altra parte, quando presentato solo con un prompt di testo, OmniCreator diventa generativo, producendo video di alta qualità come risultato della corrispondenza semantica appresa. È importante notare che le stesse capacità si estendono anche alle immagini, rendendo OmniCreator un framework veramente unificato. Inoltre, a causa della mancanza di benchmark esistenti per l'editing generativo di video, introduciamo il dataset OmniBench-99, progettato per valutare in modo esaustivo le prestazioni dei modelli di editing generativo di video. Estesi esperimenti dimostrano che OmniCreator mostra una sostanziale superiorità su tutti gli altri modelli.
English
We introduce OmniCreator, a novel framework that can conduct text-prompted
unified (image+video) generation as well as editing all in one place.
OmniCreator acquires generative and universal editing capabilities in a
self-supervised manner, taking original text-video pairs as conditions while
utilizing the same video as a denoising target to learn the semantic
correspondence between video and text. During inference, when presented with a
text prompt and a video, OmniCreator is capable of generating a target that is
faithful to both, achieving a universal editing effect that is unconstrained as
opposed to existing editing work that primarily focuses on certain editing
types or relies on additional controls (e.g., structural conditions, attention
features, or DDIM inversion). On the other hand, when presented with a text
prompt only, OmniCreator becomes generative, producing high-quality video as a
result of the semantic correspondence learned. Importantly, we found that the
same capabilities extend to images as is, making OmniCreator a truly unified
framework. Further, due to the lack of existing generative video editing
benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the
performance of generative video editing models comprehensively. Extensive
experiments demonstrate that OmniCreator exhibits substantial superiority over
all other models.Summary
AI-Generated Summary