ChatPaper.aiChatPaper

Edit Transfer: Lernen von Bildbearbeitung durch visuelle In-Kontext-Beziehungen

Edit Transfer: Learning Image Editing via Vision In-Context Relations

March 17, 2025
Autoren: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou
cs.AI

Zusammenfassung

Wir stellen eine neue Methode vor, Edit Transfer, bei der ein Modell eine Transformation anhand eines einzigen Quell-Ziel-Beispiels lernt und diese auf ein neues Abfragebild anwendet. Während textbasierte Methoden bei semantischen Manipulationen durch textuelle Eingabeaufforderungen hervorragend abschneiden, haben sie oft Schwierigkeiten mit präzisen geometrischen Details (z. B. Posen und Blickwinkeländerungen). Referenzbasierte Bearbeitung hingegen konzentriert sich typischerweise auf Stil oder Erscheinungsbild und scheitert bei nicht-starren Transformationen. Durch das explizite Lernen der Bearbeitungstransformation aus einem Quell-Ziel-Paar überwindet Edit Transfer die Einschränkungen sowohl textbasierter als auch erscheinungszentrierter Referenzen. Inspiriert vom In-Context-Lernen in großen Sprachmodellen, schlagen wir ein visuelles In-Context-Lernparadigma vor, das auf einem DiT-basierten Text-zu-Bild-Modell aufbaut. Wir ordnen das bearbeitete Beispiel und das Abfragebild in ein einheitliches vierteiliges Komposit an und wenden dann eine leichtgewichtige LoRA-Feinabstimmung an, um komplexe räumliche Transformationen aus minimalen Beispielen zu erfassen. Trotz der Verwendung von nur 42 Trainingsdaten übertrifft Edit Transfer die modernsten TIE- und RIE-Methoden in verschiedenen nicht-starren Szenarien deutlich und demonstriert die Effektivität des Few-Shot-Lernens visueller Beziehungen.
English
We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

Summary

AI-Generated Summary

PDF287March 18, 2025