HalloMeme: Integration von räumlichen Strickaufmerksamkeiten zur Einbettung von hochrangigen und detailreichen Bedingungen in Diffusionsmodellen

HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

October 30, 2024
Autoren: Shengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao
cs.AI

Zusammenfassung

Wir schlagen eine effektive Methode zur Einfügung von Adaptern in Text-zu-Bild-Grundlagenmodelle vor, die die Ausführung komplexer nachgelagerter Aufgaben ermöglicht, während die Verallgemeinerungsfähigkeit des Basismodells erhalten bleibt. Die Kernidee dieser Methode besteht darin, den Aufmerksamkeitsmechanismus in Bezug auf 2D-Merkmalmaps zu optimieren, was die Leistung des Adapters verbessert. Dieser Ansatz wurde anhand der Aufgabe der Meme-Videoerstellung validiert und erzielte signifikante Ergebnisse. Wir hoffen, dass diese Arbeit Einblicke für die Nachschulungsaufgaben großer Text-zu-Bild-Modelle bieten kann. Darüber hinaus, da diese Methode eine gute Kompatibilität mit SD1.5-Derivatmodellen aufweist, hat sie einen gewissen Wert für die Open-Source-Community. Daher werden wir den zugehörigen Code veröffentlichen (https://songkey.github.io/hellomeme).
English
We propose an effective method for inserting adapters into text-to-image foundation models, which enables the execution of complex downstream tasks while preserving the generalization ability of the base model. The core idea of this method is to optimize the attention mechanism related to 2D feature maps, which enhances the performance of the adapter. This approach was validated on the task of meme video generation and achieved significant results. We hope this work can provide insights for post-training tasks of large text-to-image models. Additionally, as this method demonstrates good compatibility with SD1.5 derivative models, it holds certain value for the open-source community. Therefore, we will release the related code (https://songkey.github.io/hellomeme).

Summary

AI-Generated Summary

PDF82November 13, 2024