Diffusionscurriculum: Generatives Curriculum-Lernen von Synthetisch zu Real über Bildgeführte Diffusion

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

October 17, 2024
Autoren: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI

Zusammenfassung

Niedrigwertige oder knappe Daten haben in der Praxis erhebliche Herausforderungen für das Training tiefer neuronaler Netzwerke dargestellt. Während klassische Datenvermehrung nicht sehr unterschiedliche neue Daten liefern kann, eröffnen Diffusionsmodelle eine neue Möglichkeit, selbstentwickelte KI aufzubauen, indem sie hochwertige und vielfältige synthetische Daten durch textgesteuerte Anweisungen generieren. Allerdings kann alleinige Textanleitung die Nähe synthetischer Bilder zu den Originalbildern nicht kontrollieren, was zu außerhalb der Verteilung liegenden Daten führt, die die Modellleistung beeinträchtigen. Um diese Einschränkung zu überwinden, untersuchen wir Bildanleitungen, um ein Spektrum von Interpolationen zwischen synthetischen und echten Bildern zu erreichen. Mit stärkerer Bildanleitung ähneln die generierten Bilder den Trainingsdaten, sind jedoch schwer zu erlernen. Während bei schwächerer Bildanleitung die synthetischen Bilder für das Modell einfacher sind, aber zu einer größeren Verteilungslücke zu den Originaldaten beitragen. Die erzeugte vollständige Datenpalette ermöglicht es uns, ein neues "Diffusionscurriculum (DisCL)" aufzubauen. DisCL passt den Bildanleitungsgrad der Bildsynthese für jede Trainingsphase an: Es identifiziert und konzentriert sich auf schwierige Beispiele für das Modell und bewertet den effektivsten Anleitungsgrad synthetischer Bilder, um das Lernen schwieriger Daten zu verbessern. Wir wenden DisCL auf zwei anspruchsvolle Aufgaben an: Klassifizierung mit langem Schwanz (LT) und Lernen aus minderwertigen Daten. Es konzentriert sich auf Bilder mit geringerer Anleitung von hoher Qualität, um prototypische Merkmale als Einstieg in das Lernen von Bildern mit höherer Anleitung zu erlernen, die möglicherweise in Bezug auf Vielfalt oder Qualität schwach sind. Umfangreiche Experimente zeigen eine Steigerung von 2,7% und 2,1% in OOD- und ID-Makro-Genauigkeit, wenn DisCL auf den iWildCam-Datensatz angewendet wird. Bei ImageNet-LT verbessert DisCL die Schwanzklassengenauigkeit des Basismodells von 4,4% auf 23,64% und führt zu einer Verbesserung der Gesamtklassengenauigkeit um 4,02%.
English
Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images' proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Summary

AI-Generated Summary

PDF153November 16, 2024