Curriculum de Diffusion : Apprentissage de Curriculum Génératif Synthétique-à-Réel via Diffusion Guidée par Image

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

October 17, 2024
Auteurs: Yijun Liang, Shweta Bhardwaj, Tianyi Zhou
cs.AI

Résumé

Les données de qualité médiocre ou rares ont posé des défis significatifs pour l'entraînement des réseaux neuronaux profonds en pratique. Alors que l'augmentation de données classique ne peut pas apporter de données très différentes, les modèles de diffusion ouvrent une nouvelle voie pour construire une IA auto-évolutive en générant des données synthétiques de haute qualité et diversifiées à travers des instructions guidées par texte. Cependant, l'orientation uniquement basée sur le texte ne peut pas contrôler la proximité des images synthétiques avec les images originales, entraînant des données hors distribution préjudiciables à la performance du modèle. Pour surmonter cette limitation, nous étudions l'orientation des images pour obtenir un spectre d'interpolations entre les images synthétiques et réelles. Avec une orientation d'image plus forte, les images générées sont similaires aux données d'entraînement mais difficiles à apprendre. Tandis qu'avec une orientation d'image plus faible, les images synthétiques seront plus faciles pour le modèle mais contribueront à un écart de distribution plus important avec les données originales. Le spectre complet de données générées nous permet de construire un nouveau "Curriculum de Diffusion (DisCL)". DisCL ajuste le niveau d'orientation des images pour la synthèse d'images à chaque étape d'entraînement : il identifie et se concentre sur les échantillons difficiles pour le modèle et évalue le niveau d'orientation le plus efficace des images synthétiques pour améliorer l'apprentissage des données difficiles. Nous appliquons DisCL à deux tâches complexes : la classification à longue traîne (LT) et l'apprentissage à partir de données de qualité médiocre. Il se concentre sur les images à faible orientation de haute qualité pour apprendre des caractéristiques prototypiques en tant qu'échauffement avant d'apprendre des images à orientation plus élevée qui pourraient manquer de diversité ou de qualité. Des expériences approfondies montrent un gain de 2,7% et 2,1% en macro-précision OOD et ID lors de l'application de DisCL à l'ensemble de données iWildCam. Sur ImageNet-LT, DisCL améliore la précision des classes de queue du modèle de base de 4,4% à 23,64% et entraîne une amélioration de 4,02% dans la précision de toutes les classes.
English
Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images' proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel "Diffusion Curriculum (DisCL)". DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model's tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Summary

AI-Generated Summary

PDF153November 16, 2024