Diffusie Leerplan: Synthetisch-naar-echt Generatief Leerplan Leren via Beeldgestuurde Diffusie
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion
October 17, 2024
Auteurs: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI
Samenvatting
Lage kwaliteit of schaarse gegevens hebben aanzienlijke uitdagingen opgeleverd voor het trainen van diepe neurale netwerken in de praktijk. Terwijl klassieke gegevensaugmentatie niet kan bijdragen aan heel verschillende nieuwe gegevens, opent diffusiemodellen een nieuwe deur om zelf-evoluerende AI op te bouwen door hoogwaardige en diverse synthetische gegevens te genereren via door tekst geleide prompts. Echter, enkel tekstuele begeleiding kan de nabijheid van synthetische afbeeldingen tot de originele afbeeldingen niet controleren, resulterend in out-of-distribution gegevens die schadelijk zijn voor de modelprestaties. Om de beperking te overwinnen, bestuderen we beeldbegeleiding om een spectrum van interpolaties tussen synthetische en echte afbeeldingen te bereiken. Met sterkere beeldbegeleiding zijn de gegenereerde afbeeldingen vergelijkbaar met de trainingsgegevens maar moeilijk te leren. Terwijl bij zwakkere beeldbegeleiding de synthetische afbeeldingen gemakkelijker zijn voor het model maar bijdragen aan een grotere distributiekloof met de originele gegevens. De gegenereerde volledige reeks gegevens stelt ons in staat om een nieuw "Diffusie Curriculum (DisCL)" op te bouwen. DisCL past het begeleidingsniveau van beeldsynthese aan voor elke trainingsfase: het identificeert en richt zich op moeilijke voorbeelden voor het model en beoordeelt het meest effectieve begeleidingsniveau van synthetische afbeeldingen om het leren van moeilijke gegevens te verbeteren. We passen DisCL toe op twee uitdagende taken: lange staart (LT) classificatie en leren van lage kwaliteit gegevens. Het richt zich op beelden met lagere begeleiding van hoge kwaliteit om prototypische kenmerken te leren als een opwarmertje voor het leren van beelden met hogere begeleiding die mogelijk zwak zijn in diversiteit of kwaliteit. Uitgebreide experimenten tonen een winst van 2,7% en 2,1% in OOD en ID macro-nauwkeurigheid wanneer DisCL wordt toegepast op de iWildCam dataset. Op ImageNet-LT verbetert DisCL de nauwkeurigheid van de staartklasse van het basismodel van 4,4% naar 23,64% en leidt tot een verbetering van 4,02% in de nauwkeurigheid van alle klassen.
English
Low-quality or scarce data has posed significant challenges for training deep
neural networks in practice. While classical data augmentation cannot
contribute very different new data, diffusion models opens up a new door to
build self-evolving AI by generating high-quality and diverse synthetic data
through text-guided prompts. However, text-only guidance cannot control
synthetic images' proximity to the original images, resulting in
out-of-distribution data detrimental to the model performance. To overcome the
limitation, we study image guidance to achieve a spectrum of interpolations
between synthetic and real images. With stronger image guidance, the generated
images are similar to the training data but hard to learn. While with weaker
image guidance, the synthetic images will be easier for model but contribute to
a larger distribution gap with the original data. The generated full spectrum
of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL
adjusts the image guidance level of image synthesis for each training stage: It
identifies and focuses on hard samples for the model and assesses the most
effective guidance level of synthetic images to improve hard data learning. We
apply DisCL to two challenging tasks: long-tail (LT) classification and
learning from low-quality data. It focuses on lower-guidance images of
high-quality to learn prototypical features as a warm-up of learning
higher-guidance images that might be weak on diversity or quality. Extensive
experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when
applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base
model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02%
improvement in all-class accuracy.Summary
AI-Generated Summary