Hoeveel Van Goghs zijn er nodig om een Van Gogh te maken? Het vinden van de imitatie drempel
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold
October 19, 2024
Auteurs: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI
Samenvatting
Tekst-naar-afbeeldingmodellen worden getraind met behulp van grote datasets die zijn verzameld door afbeelding-tekstparen van internet te schrapen. Deze datasets bevatten vaak privé-, auteursrechtelijk beschermd en gelicentieerd materiaal. Het trainen van modellen op dergelijke datasets stelt hen in staat afbeeldingen te genereren met dergelijke inhoud, wat in strijd kan zijn met auteursrechtwetten en individuele privacy. Dit fenomeen wordt imitatie genoemd - het genereren van afbeeldingen met inhoud die herkenbare gelijkenis vertoont met de trainingsafbeeldingen. In dit werk bestuderen we de relatie tussen de frequentie van een concept in de trainingsdataset en het vermogen van een model om het na te bootsen. We proberen het punt te bepalen waarop een model voldoende is getraind om een concept na te bootsen - de imitatie drempel. We stellen deze vraag als een nieuw probleem: het vinden van de Imitatiedrempel (FIT) en stellen een efficiënte aanpak voor die de imitatie drempel schat zonder de enorme kosten van het trainen van meerdere modellen vanaf nul. We experimenteren met twee domeinen - menselijke gezichten en kunststijlen - waarvoor we vier datasets maken, en evalueren drie tekst-naar-afbeeldingmodellen die zijn getraind op twee pretraining datasets. Onze resultaten tonen aan dat de imitatie drempel van deze modellen ligt in het bereik van 200-600 afbeeldingen, afhankelijk van het domein en het model. De imitatie drempel kan een empirische basis bieden voor claims van auteursrechtinbreuk en fungeert als een leidraad voor ontwikkelaars van tekst-naar-afbeeldingmodellen die willen voldoen aan auteursrecht- en privacywetten. We publiceren de code en data op https://github.com/vsahil/MIMETIC-2.git en de website van het project is te vinden op https://how-many-van-goghs-does-it-take.github.io.
English
Text-to-image models are trained using large datasets collected by scraping
image-text pairs from the internet. These datasets often include private,
copyrighted, and licensed material. Training models on such datasets enables
them to generate images with such content, which might violate copyright laws
and individual privacy. This phenomenon is termed imitation -- generation of
images with content that has recognizable similarity to its training images. In
this work we study the relationship between a concept's frequency in the
training dataset and the ability of a model to imitate it. We seek to determine
the point at which a model was trained on enough instances to imitate a concept
-- the imitation threshold. We posit this question as a new problem: Finding
the Imitation Threshold (FIT) and propose an efficient approach that estimates
the imitation threshold without incurring the colossal cost of training
multiple models from scratch. We experiment with two domains -- human faces and
art styles -- for which we create four datasets, and evaluate three
text-to-image models which were trained on two pretraining datasets. Our
results reveal that the imitation threshold of these models is in the range of
200-600 images, depending on the domain and the model. The imitation threshold
can provide an empirical basis for copyright violation claims and acts as a
guiding principle for text-to-image model developers that aim to comply with
copyright and privacy laws. We release the code and data at
https://github.com/vsahil/MIMETIC-2.git and the project's website is
hosted at https://how-many-van-goghs-does-it-take.github.io.Summary
AI-Generated Summary