Percorsi sulla varietà delle immagini: Modifica delle immagini tramite la generazione di video
Pathways on the Image Manifold: Image Editing via Video Generation
November 25, 2024
Autori: Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel
cs.AI
Abstract
I recenti progressi nell'editing di immagini, guidati dai modelli di diffusione delle immagini, hanno mostrato un notevole avanzamento. Tuttavia, rimangono significativi sfide, poiché questi modelli spesso faticano a seguire con precisione istruzioni di modifica complesse e compromettono frequentemente la fedeltà alterando elementi chiave dell'immagine originale. Allo stesso tempo, la generazione di video ha compiuto notevoli passi avanti, con modelli che funzionano efficacemente come simulatori di mondo coerenti e continui. In questo articolo, proponiamo di unire questi due campi utilizzando modelli di immagine-a-video per l'editing di immagini. Riformuliamo l'editing di immagini come un processo temporale, utilizzando modelli video preaddestrati per creare transizioni fluide dall'immagine originale alla modifica desiderata. Questo approccio attraversa continuamente il manifolds delle immagini, garantendo modifiche coerenti e preservando gli aspetti chiave dell'immagine originale. Il nostro approccio raggiunge risultati all'avanguardia nell'editing di immagini basato su testo, dimostrando miglioramenti significativi sia nell'accuratezza della modifica che nella conservazione dell'immagine.
English
Recent advances in image editing, driven by image diffusion models, have
shown remarkable progress. However, significant challenges remain, as these
models often struggle to follow complex edit instructions accurately and
frequently compromise fidelity by altering key elements of the original image.
Simultaneously, video generation has made remarkable strides, with models that
effectively function as consistent and continuous world simulators. In this
paper, we propose merging these two fields by utilizing image-to-video models
for image editing. We reformulate image editing as a temporal process, using
pretrained video models to create smooth transitions from the original image to
the desired edit. This approach traverses the image manifold continuously,
ensuring consistent edits while preserving the original image's key aspects.
Our approach achieves state-of-the-art results on text-based image editing,
demonstrating significant improvements in both edit accuracy and image
preservation.Summary
AI-Generated Summary