KV-Edit: Обработка изображений без обучения для точного сохранения фона
KV-Edit: Training-Free Image Editing for Precise Background Preservation
February 24, 2025
Авторы: Tianrui Zhu, Shiyi Zhang, Jiawei Shao, Yansong Tang
cs.AI
Аннотация
Сохранение согласованности фона остается значительным вызовом в задачах редактирования изображений. Несмотря на обширные разработки, существующие работы все еще сталкиваются с компромиссом между сохранением сходства с оригинальным изображением и генерацией контента, соответствующего целевому. Здесь мы предлагаем KV-Edit, подход без обучения, который использует кэш KV в DiTs для сохранения согласованности фона, где токены фона сохраняются, а не восстанавливаются, что устраняет необходимость в сложных механизмах или дорогостоящем обучении, в конечном итоге создавая новый контент, который плавно интегрируется с фоном в областях, предоставленных пользователем. Мы также исследуем потребление памяти кэша KV во время редактирования и оптимизируем сложность по памяти до O(1) с использованием метода без инверсии. Наш подход совместим с любой генеративной моделью на основе DiT без дополнительного обучения. Эксперименты показывают, что KV-Edit значительно превосходит существующие подходы как по качеству фона, так и изображения, даже превосходя методы на основе обучения. Веб-страница проекта доступна по адресу https://xilluill.github.io/projectpages/KV-Edit
English
Background consistency remains a significant challenge in image editing
tasks. Despite extensive developments, existing works still face a trade-off
between maintaining similarity to the original image and generating content
that aligns with the target. Here, we propose KV-Edit, a training-free approach
that uses KV cache in DiTs to maintain background consistency, where background
tokens are preserved rather than regenerated, eliminating the need for complex
mechanisms or expensive training, ultimately generating new content that
seamlessly integrates with the background within user-provided regions. We
further explore the memory consumption of the KV cache during editing and
optimize the space complexity to O(1) using an inversion-free method. Our
approach is compatible with any DiT-based generative model without additional
training. Experiments demonstrate that KV-Edit significantly outperforms
existing approaches in terms of both background and image quality, even
surpassing training-based methods. Project webpage is available at
https://xilluill.github.io/projectpages/KV-EditSummary
AI-Generated Summary