ChatPaper.aiChatPaper

Ultra-Auflösungsanpassung mit Leichtigkeit

Ultra-Resolution Adaptation with Ease

March 20, 2025
Autoren: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Das Training von Modellen für die Erzeugung hochauflösender Bilder bleibt jedoch eine Herausforderung, insbesondere wenn Trainingsdaten und Rechenressourcen begrenzt sind. In diesem Artikel untersuchen wir dieses praktische Problem aus zwei zentralen Perspektiven: Daten- und Parameter-Effizienz, und schlagen eine Reihe von Schlüsselrichtlinien für die Ultra-HD-Anpassung vor, die als URAE bezeichnet wird. Im Hinblick auf die Dateneffizienz zeigen wir theoretisch und empirisch, dass synthetische Daten, die von einigen Lehrer-Modellen generiert werden, die Trainingskonvergenz erheblich fördern können. In Bezug auf die Parametereffizienz stellen wir fest, dass die Feinabstimmung kleiner Komponenten der Gewichtsmatrizen weit verbreitete Low-Rank-Adapter übertrifft, wenn synthetische Daten nicht verfügbar sind, und dabei erhebliche Leistungssteigerungen bei gleichbleibender Effizienz bietet. Darüber hinaus zeigen wir für Modelle, die auf Guidance-Distillation setzen, wie z. B. FLUX, dass das Deaktivieren der classifier-freien Guidance, d. h. das Setzen des Guidance-Skalas auf 1 während der Anpassung, entscheidend für eine zufriedenstellende Leistung ist. Umfangreiche Experimente bestätigen, dass URAE mit nur 3.000 Stichproben und 2.000 Iterationen eine vergleichbare 2K-Generierungsleistung wie state-of-the-art Closed-Source-Modelle wie FLUX1.1 [Pro] Ultra erreicht, während gleichzeitig neue Maßstäbe für die 4K-Auflösungsgenerierung gesetzt werden. Die Codes sind verfügbar unter https://github.com/Huage001/URAE{hier}.
English
Text-to-image diffusion models have achieved remarkable progress in recent years. However, training models for high-resolution image generation remains challenging, particularly when training data and computational resources are limited. In this paper, we explore this practical problem from two key perspectives: data and parameter efficiency, and propose a set of key guidelines for ultra-resolution adaptation termed URAE. For data efficiency, we theoretically and empirically demonstrate that synthetic data generated by some teacher models can significantly promote training convergence. For parameter efficiency, we find that tuning minor components of the weight matrices outperforms widely-used low-rank adapters when synthetic data are unavailable, offering substantial performance gains while maintaining efficiency. Additionally, for models leveraging guidance distillation, such as FLUX, we show that disabling classifier-free guidance, i.e., setting the guidance scale to 1 during adaptation, is crucial for satisfactory performance. Extensive experiments validate that URAE achieves comparable 2K-generation performance to state-of-the-art closed-source models like FLUX1.1 [Pro] Ultra with only 3K samples and 2K iterations, while setting new benchmarks for 4K-resolution generation. Codes are available https://github.com/Huage001/URAE{here}.

Summary

AI-Generated Summary

PDF132March 21, 2025