InfiniteYou: Flexibles Neugestalten von Fotos unter Wahrung Ihrer Identität
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity
March 20, 2025
Autoren: Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu
cs.AI
Zusammenfassung
Die Realisierung flexibler und hochwertiger Bildgenerierung mit erhaltener Identität bleibt eine herausfordernde Aufgabe, insbesondere bei fortschrittlichen Diffusion Transformers (DiTs) wie FLUX. Wir stellen InfiniteYou (InfU) vor, eines der ersten robusten Frameworks, das DiTs für diese Aufgabe nutzt. InfU adressiert wesentliche Probleme bestehender Methoden, wie unzureichende Identitätsähnlichkeit, schlechte Text-Bild-Ausrichtung sowie geringe Generierungsqualität und Ästhetik. Kern von InfU ist InfuseNet, eine Komponente, die Identitätsmerkmale über Residualverbindungen in das DiT-Basismodell einspeist und so die Identitätsähnlichkeit verbessert, während die Generierungsfähigkeiten erhalten bleiben. Eine mehrstufige Trainingsstrategie, einschließlich Vorabtraining und überwachtem Feinabstimmen (SFT) mit synthetischen Einzelperson-Mehrfachproben-Daten (SPMS), verbessert die Text-Bild-Ausrichtung weiter, steigert die Bildqualität und reduziert das Kopieren von Gesichtern. Umfangreiche Experimente zeigen, dass InfU Spitzenleistungen erzielt und bestehende Baselines übertrifft. Darüber hinaus gewährleistet das Plug-and-Play-Design von InfU die Kompatibilität mit verschiedenen bestehenden Methoden und bietet somit einen wertvollen Beitrag für die breitere Community.
English
Achieving flexible and high-fidelity identity-preserved image generation
remains formidable, particularly with advanced Diffusion Transformers (DiTs)
like FLUX. We introduce InfiniteYou (InfU), one of the earliest robust
frameworks leveraging DiTs for this task. InfU addresses significant issues of
existing methods, such as insufficient identity similarity, poor text-image
alignment, and low generation quality and aesthetics. Central to InfU is
InfuseNet, a component that injects identity features into the DiT base model
via residual connections, enhancing identity similarity while maintaining
generation capabilities. A multi-stage training strategy, including pretraining
and supervised fine-tuning (SFT) with synthetic single-person-multiple-sample
(SPMS) data, further improves text-image alignment, ameliorates image quality,
and alleviates face copy-pasting. Extensive experiments demonstrate that InfU
achieves state-of-the-art performance, surpassing existing baselines. In
addition, the plug-and-play design of InfU ensures compatibility with various
existing methods, offering a valuable contribution to the broader community.Summary
AI-Generated Summary