LightGen: Effiziente Bildgenerierung durch Wissensdistillation und direkte Präferenzoptimierung
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization
March 11, 2025
Autoren: Xianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Bild-Generierung basierten hauptsächlich auf umfangreichen Datensätzen und Architekturen mit hohem Parameteraufwand. Diese Anforderungen schränken die Zugänglichkeit für Forscher und Praktiker, die über begrenzte Rechenressourcen verfügen, erheblich ein. In diesem Artikel stellen wir \model vor, ein effizientes Trainingsparadigma für Bildgenerierungsmodelle, das Wissensdistillation (Knowledge Distillation, KD) und Direct Preference Optimization (DPO) nutzt. Inspiriert vom Erfolg von KD-Techniken, die in Multi-Modalen Großen Sprachmodellen (MLLMs) weit verbreitet sind, destilliert LightGen Wissen aus state-of-the-art (SOTA) Text-zu-Bild-Modellen in eine kompakte Masked Autoregressive (MAR)-Architektur mit nur 0,7 Milliarden Parametern. Mit einem kompakten synthetischen Datensatz von lediglich 2 Millionen hochwertigen Bildern, die aus verschiedenen Bildbeschreibungen generiert wurden, zeigen wir, dass die Datenvielfalt das Datenvolumen in Bezug auf die Modellleistung deutlich übertrifft. Diese Strategie reduziert den Rechenaufwand erheblich und verkürzt die Vor-Trainingszeit von potenziell tausenden GPU-Tagen auf nur 88 GPU-Tage. Darüber hinaus integrieren wir die DPO-Technik, um die inhärenten Schwächen synthetischer Daten, insbesondere schlechte Hochfrequenzdetails und räumliche Ungenauigkeiten, zu beheben und so die Bildqualität und Positionsgenauigkeit zu verbessern. Umfassende Experimente bestätigen, dass LightGen eine Bildgenerierungsqualität erreicht, die mit SOTA-Modellen vergleichbar ist, während gleichzeitig die Rechenressourcen erheblich reduziert und die Zugänglichkeit für ressourcenbeschränkte Umgebungen erweitert wird. Der Code ist verfügbar unter https://github.com/XianfengWu01/LightGen.
English
Recent advances in text-to-image generation have primarily relied on
extensive datasets and parameter-heavy architectures. These requirements
severely limit accessibility for researchers and practitioners who lack
substantial computational resources. In this paper, we introduce \model, an
efficient training paradigm for image generation models that uses knowledge
distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration
from the success of data KD techniques widely adopted in Multi-Modal Large
Language Models (MLLMs), LightGen distills knowledge from state-of-the-art
(SOTA) text-to-image models into a compact Masked Autoregressive (MAR)
architecture with only 0.7B parameters. Using a compact synthetic dataset of
just 2M high-quality images generated from varied captions, we demonstrate
that data diversity significantly outweighs data volume in determining model
performance. This strategy dramatically reduces computational demands and
reduces pre-training time from potentially thousands of GPU-days to merely 88
GPU-days. Furthermore, to address the inherent shortcomings of synthetic data,
particularly poor high-frequency details and spatial inaccuracies, we integrate
the DPO technique that refines image fidelity and positional accuracy.
Comprehensive experiments confirm that LightGen achieves image generation
quality comparable to SOTA models while significantly reducing computational
resources and expanding accessibility for resource-constrained environments.
Code is available at https://github.com/XianfengWu01/LightGenSummary
AI-Generated Summary