Diffusie Leerplan: Synthetisch-naar-echt Generatief Leerplan Leren via Beeldgestuurde Diffusie

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

October 17, 2024
Auteurs: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI

Samenvatting

Lage kwaliteit of schaarse gegevens hebben aanzienlijke uitdagingen opgeleverd voor het trainen van diepe neurale netwerken in de praktijk. Terwijl klassieke gegevensaugmentatie niet kan bijdragen aan heel verschillende nieuwe gegevens, opent diffusiemodellen een nieuwe deur om zelf-evoluerende AI op te bouwen door hoogwaardige en diverse synthetische gegevens te genereren via door tekst geleide prompts. Echter, enkel tekstuele begeleiding kan de nabijheid van synthetische afbeeldingen tot de originele afbeeldingen niet controleren, resulterend in out-of-distribution gegevens die schadelijk zijn voor de modelprestaties. Om de beperking te overwinnen, bestuderen we beeldbegeleiding om een spectrum van interpolaties tussen synthetische en echte afbeeldingen te bereiken. Met sterkere beeldbegeleiding zijn de gegenereerde afbeeldingen vergelijkbaar met de trainingsgegevens maar moeilijk te leren. Terwijl bij zwakkere beeldbegeleiding de synthetische afbeeldingen gemakkelijker zijn voor het model maar bijdragen aan een grotere distributiekloof met de originele gegevens. De gegenereerde volledige reeks gegevens stelt ons in staat om een nieuw "Diffusie Curriculum (DisCL)" op te bouwen. DisCL past het begeleidingsniveau van beeldsynthese aan voor elke trainingsfase: het identificeert en richt zich op moeilijke voorbeelden voor het model en beoordeelt het meest effectieve begeleidingsniveau van synthetische afbeeldingen om het leren van moeilijke gegevens te verbeteren. We passen DisCL toe op twee uitdagende taken: lange staart (LT) classificatie en leren van lage kwaliteit gegevens. Het richt zich op beelden met lagere begeleiding van hoge kwaliteit om prototypische kenmerken te leren als een opwarmertje voor het leren van beelden met hogere begeleiding die mogelijk zwak zijn in diversiteit of kwaliteit. Uitgebreide experimenten tonen een winst van 2,7% en 2,1% in OOD en ID macro-nauwkeurigheid wanneer DisCL wordt toegepast op de iWildCam dataset. Op ImageNet-LT verbetert DisCL de nauwkeurigheid van de staartklasse van het basismodel van 4,4% naar 23,64% en leidt tot een verbetering van 4,02% in de nauwkeurigheid van alle klassen.
English
Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images' proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Summary

AI-Generated Summary

PDF153November 16, 2024