In-Context LoRA für Diffusions-Transformer
In-Context LoRA for Diffusion Transformers
October 31, 2024
Autoren: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou
cs.AI
Zusammenfassung
Neueste Forschungen arXiv:2410.15027 haben die Verwendung von Diffusions-Transformern (DiTs) zur aufgabenagnostischen Bildgenerierung untersucht, indem sie einfach Aufmerksamkeitstoken über Bilder hinweg konkatenieren. Trotz erheblicher Rechenressourcen bleibt die Qualität der generierten Bilder jedoch suboptimal. In dieser Studie überprüfen und optimieren wir dieses Framework, indem wir die Hypothese aufstellen, dass Text-zu-Bild DiTs von Natur aus über In-Context-Generierungsfähigkeiten verfügen, die nur minimale Anpassungen erfordern, um sie zu aktivieren. Durch vielfältige Aufgabenexperimente zeigen wir qualitativ, dass bestehende Text-zu-Bild DiTs in der Lage sind, In-Context-Generierung effektiv durchzuführen, ohne jegliche Anpassungen vorzunehmen. Basierend auf dieser Erkenntnis schlagen wir eine bemerkenswert einfache Pipeline vor, um die In-Context-Fähigkeiten von DiTs zu nutzen: (1) Bilder anstelle von Token konkatenieren, (2) gemeinsame Beschriftung mehrerer Bilder durchführen und (3) eine aufgabenspezifische LoRA-Anpassung mit kleinen Datensätzen (z.B. 20 bis 100 Proben) anstelle einer vollständigen Parameteranpassung mit großen Datensätzen durchführen. Wir nennen unsere Modelle In-Context LoRA (IC-LoRA). Dieser Ansatz erfordert keine Änderungen an den originalen DiT-Modellen, sondern nur Änderungen an den Trainingsdaten. Bemerkenswerterweise generiert unsere Pipeline hochwertige Bildersets, die besser den Vorgaben entsprechen. Während unser Framework in Bezug auf die Anpassung der Daten aufgabenbezogen ist, bleibt es in Architektur und Pipeline aufgabenagnostisch und bietet ein leistungsstarkes Werkzeug für die Gemeinschaft sowie wertvolle Einblicke für weitere Forschungen zu aufgabenagnostischen Generierungssystemen auf Produktbasis. Wir veröffentlichen unseren Code, unsere Daten und Modelle unter https://github.com/ali-vilab/In-Context-LoRA.
English
Recent research arXiv:2410.15027 has explored the use of diffusion
transformers (DiTs) for task-agnostic image generation by simply concatenating
attention tokens across images. However, despite substantial computational
resources, the fidelity of the generated images remains suboptimal. In this
study, we reevaluate and streamline this framework by hypothesizing that
text-to-image DiTs inherently possess in-context generation capabilities,
requiring only minimal tuning to activate them. Through diverse task
experiments, we qualitatively demonstrate that existing text-to-image DiTs can
effectively perform in-context generation without any tuning. Building on this
insight, we propose a remarkably simple pipeline to leverage the in-context
abilities of DiTs: (1) concatenate images instead of tokens, (2) perform joint
captioning of multiple images, and (3) apply task-specific LoRA tuning using
small datasets (e.g., 20sim 100 samples) instead of full-parameter tuning
with large datasets. We name our models In-Context LoRA (IC-LoRA). This
approach requires no modifications to the original DiT models, only changes to
the training data. Remarkably, our pipeline generates high-fidelity image sets
that better adhere to prompts. While task-specific in terms of tuning data, our
framework remains task-agnostic in architecture and pipeline, offering a
powerful tool for the community and providing valuable insights for further
research on product-level task-agnostic generation systems. We release our
code, data, and models at https://github.com/ali-vilab/In-Context-LoRASummary
AI-Generated Summary