Combien de Van Goghs faut-il pour Van Gogher ? Trouver le seuil d'imitation
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
October 19, 2024
Auteurs: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI
Résumé
Les modèles texte-image sont entraînés en utilisant de grands ensembles de données collectés en extrayant des paires image-texte sur internet. Ces ensembles de données incluent souvent du matériel privé, protégé par des droits d'auteur et sous licence. Entraîner des modèles sur de telles données leur permet de générer des images avec un tel contenu, ce qui pourrait violer les lois sur le droit d'auteur et la vie privée des individus. Ce phénomène est appelé imitation - la génération d'images avec un contenu qui présente une similarité reconnaissable avec ses images d'entraînement. Dans ce travail, nous étudions la relation entre la fréquence d'un concept dans l'ensemble de données d'entraînement et la capacité d'un modèle à l'imiter. Nous cherchons à déterminer le point à partir duquel un modèle a été entraîné sur suffisamment d'instances pour imiter un concept - le seuil d'imitation. Nous posons cette question comme un nouveau problème : Trouver le Seuil d'Imitation (FIT) et proposons une approche efficace qui estime le seuil d'imitation sans supporter le coût colossal de l'entraînement de plusieurs modèles à partir de zéro. Nous expérimentons avec deux domaines - les visages humains et les styles artistiques - pour lesquels nous créons quatre ensembles de données, et évaluons trois modèles texte-image qui ont été entraînés sur deux ensembles de données de pré-entraînement. Nos résultats révèlent que le seuil d'imitation de ces modèles se situe dans la plage de 200 à 600 images, en fonction du domaine et du modèle. Le seuil d'imitation peut fournir une base empirique pour les revendications de violation du droit d'auteur et servir de principe directeur pour les développeurs de modèles texte-image qui visent à se conformer aux lois sur le droit d'auteur et la vie privée. Nous mettons à disposition le code et les données sur https://github.com/vsahil/MIMETIC-2.git et le site web du projet est hébergé sur https://how-many-van-goghs-does-it-take.github.io.
English
Text-to-image models are trained using large datasets collected by scraping
image-text pairs from the internet. These datasets often include private,
copyrighted, and licensed material. Training models on such datasets enables
them to generate images with such content, which might violate copyright laws
and individual privacy. This phenomenon is termed imitation -- generation of
images with content that has recognizable similarity to its training images. In
this work we study the relationship between a concept's frequency in the
training dataset and the ability of a model to imitate it. We seek to determine
the point at which a model was trained on enough instances to imitate a concept
-- the imitation threshold. We posit this question as a new problem: Finding
the Imitation Threshold (FIT) and propose an efficient approach that estimates
the imitation threshold without incurring the colossal cost of training
multiple models from scratch. We experiment with two domains -- human faces and
art styles -- for which we create four datasets, and evaluate three
text-to-image models which were trained on two pretraining datasets. Our
results reveal that the imitation threshold of these models is in the range of
200-600 images, depending on the domain and the model. The imitation threshold
can provide an empirical basis for copyright violation claims and acts as a
guiding principle for text-to-image model developers that aim to comply with
copyright and privacy laws. We release the code and data at
https://github.com/vsahil/MIMETIC-2.git and the project's website is
hosted at https://how-many-van-goghs-does-it-take.github.io.Summary
AI-Generated Summary