Diffusionscurriculum: Generatives Curriculum-Lernen von Synthetisch zu Real über Bildgeführte Diffusion
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Autoren: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Zusammenfassung
Niedrigwertige oder knappe Daten haben in der Praxis erhebliche Herausforderungen für das Training tiefer neuronaler Netzwerke dargestellt. Während klassische Datenvermehrung nicht sehr unterschiedliche neue Daten liefern kann, eröffnen Diffusionsmodelle eine neue Möglichkeit, selbstentwickelte KI aufzubauen, indem sie hochwertige und vielfältige synthetische Daten durch textgesteuerte Anweisungen generieren. Allerdings kann alleinige Textanleitung die Nähe synthetischer Bilder zu den Originalbildern nicht kontrollieren, was zu außerhalb der Verteilung liegenden Daten führt, die die Modellleistung beeinträchtigen. Um diese Einschränkung zu überwinden, untersuchen wir Bildanleitungen, um ein Spektrum von Interpolationen zwischen synthetischen und echten Bildern zu erreichen. Mit stärkerer Bildanleitung ähneln die generierten Bilder den Trainingsdaten, sind jedoch schwer zu erlernen. Während bei schwächerer Bildanleitung die synthetischen Bilder für das Modell einfacher sind, aber zu einer größeren Verteilungslücke zu den Originaldaten beitragen. Die erzeugte vollständige Datenpalette ermöglicht es uns, ein neues "Diffusionscurriculum (DisCL)" aufzubauen. DisCL passt den Bildanleitungsgrad der Bildsynthese für jede Trainingsphase an: Es identifiziert und konzentriert sich auf schwierige Beispiele für das Modell und bewertet den effektivsten Anleitungsgrad synthetischer Bilder, um das Lernen schwieriger Daten zu verbessern. Wir wenden DisCL auf zwei anspruchsvolle Aufgaben an: Klassifizierung mit langem Schwanz (LT) und Lernen aus minderwertigen Daten. Es konzentriert sich auf Bilder mit geringerer Anleitung von hoher Qualität, um prototypische Merkmale als Einstieg in das Lernen von Bildern mit höherer Anleitung zu erlernen, die möglicherweise in Bezug auf Vielfalt oder Qualität schwach sind. Umfangreiche Experimente zeigen eine Steigerung von 2,7% und 2,1% in OOD- und ID-Makro-Genauigkeit, wenn DisCL auf den iWildCam-Datensatz angewendet wird. Bei ImageNet-LT verbessert DisCL die Schwanzklassengenauigkeit des Basismodells von 4,4% auf 23,64% und führt zu einer Verbesserung der Gesamtklassengenauigkeit um 4,02%.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary