Ultra-Auflösungsanpassung mit Leichtigkeit
Ultra-Resolution Adaptation with Ease
March 20, 2025
Autoren: Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Das Training von Modellen für die Erzeugung hochauflösender Bilder bleibt jedoch eine Herausforderung, insbesondere wenn Trainingsdaten und Rechenressourcen begrenzt sind. In diesem Artikel untersuchen wir dieses praktische Problem aus zwei zentralen Perspektiven: Daten- und Parameter-Effizienz, und schlagen eine Reihe von Schlüsselrichtlinien für die Ultra-HD-Anpassung vor, die als URAE bezeichnet wird. Im Hinblick auf die Dateneffizienz zeigen wir theoretisch und empirisch, dass synthetische Daten, die von einigen Lehrer-Modellen generiert werden, die Trainingskonvergenz erheblich fördern können. In Bezug auf die Parametereffizienz stellen wir fest, dass die Feinabstimmung kleiner Komponenten der Gewichtsmatrizen weit verbreitete Low-Rank-Adapter übertrifft, wenn synthetische Daten nicht verfügbar sind, und dabei erhebliche Leistungssteigerungen bei gleichbleibender Effizienz bietet. Darüber hinaus zeigen wir für Modelle, die auf Guidance-Distillation setzen, wie z. B. FLUX, dass das Deaktivieren der classifier-freien Guidance, d. h. das Setzen des Guidance-Skalas auf 1 während der Anpassung, entscheidend für eine zufriedenstellende Leistung ist. Umfangreiche Experimente bestätigen, dass URAE mit nur 3.000 Stichproben und 2.000 Iterationen eine vergleichbare 2K-Generierungsleistung wie state-of-the-art Closed-Source-Modelle wie FLUX1.1 [Pro] Ultra erreicht, während gleichzeitig neue Maßstäbe für die 4K-Auflösungsgenerierung gesetzt werden. Die Codes sind verfügbar unter https://github.com/Huage001/URAE{hier}.
English
Text-to-image diffusion models have achieved remarkable progress in recent
years. However, training models for high-resolution image generation remains
challenging, particularly when training data and computational resources are
limited. In this paper, we explore this practical problem from two key
perspectives: data and parameter efficiency, and propose a set of key
guidelines for ultra-resolution adaptation termed URAE. For data
efficiency, we theoretically and empirically demonstrate that synthetic data
generated by some teacher models can significantly promote training
convergence. For parameter efficiency, we find that tuning minor components of
the weight matrices outperforms widely-used low-rank adapters when synthetic
data are unavailable, offering substantial performance gains while maintaining
efficiency. Additionally, for models leveraging guidance distillation, such as
FLUX, we show that disabling classifier-free guidance, i.e., setting
the guidance scale to 1 during adaptation, is crucial for satisfactory
performance. Extensive experiments validate that URAE achieves comparable
2K-generation performance to state-of-the-art closed-source models like FLUX1.1
[Pro] Ultra with only 3K samples and 2K iterations, while setting new
benchmarks for 4K-resolution generation. Codes are available
https://github.com/Huage001/URAE{here}.Summary
AI-Generated Summary