Wie viele Van Goghs braucht es, um Van Gogh zu werden? Die Suche nach der Imitationsschwelle.

How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold

October 19, 2024
Autoren: Sahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
cs.AI

Zusammenfassung

Text-to-Image-Modelle werden mithilfe großer Datensätze trainiert, die durch das Scrapen von Bild-Text-Paaren aus dem Internet gesammelt werden. Diese Datensätze enthalten oft private, urheberrechtlich geschützte und lizenzierte Materialien. Das Trainieren von Modellen mit solchen Datensätzen ermöglicht es ihnen, Bilder mit solchen Inhalten zu generieren, die möglicherweise gegen Urheberrechte und individuelle Privatsphäre verstoßen. Dieses Phänomen wird als Imitation bezeichnet - die Generierung von Bildern mit Inhalten, die eine erkennbare Ähnlichkeit mit den Trainingsbildern aufweisen. In dieser Arbeit untersuchen wir die Beziehung zwischen der Häufigkeit eines Konzepts im Trainingsdatensatz und der Fähigkeit eines Modells, es zu imitieren. Wir möchten den Punkt bestimmen, an dem ein Modell auf ausreichend vielen Instanzen trainiert wurde, um ein Konzept zu imitieren - die Imitationsschwelle. Wir stellen diese Frage als neues Problem: Das Finden der Imitationsschwelle (FIT) und schlagen einen effizienten Ansatz vor, der die Imitationsschwelle schätzt, ohne die enormen Kosten für das Training mehrerer Modelle von Grund auf zu verursachen. Wir experimentieren mit zwei Bereichen - menschliche Gesichter und Kunststile - für die wir vier Datensätze erstellen und drei Text-zu-Bild-Modelle evaluieren, die auf zwei Vor-Trainingsdatensätzen trainiert wurden. Unsere Ergebnisse zeigen, dass die Imitationsschwelle dieser Modelle im Bereich von 200-600 Bildern liegt, abhängig vom Bereich und dem Modell. Die Imitationsschwelle kann eine empirische Grundlage für Urheberrechtsverletzungsansprüche bieten und als Leitprinzip für Entwickler von Text-zu-Bild-Modellen dienen, die die Urheberrechts- und Datenschutzgesetze einhalten möchten. Wir veröffentlichen den Code und die Daten unter https://github.com/vsahil/MIMETIC-2.git und die Website des Projekts ist unter https://how-many-van-goghs-does-it-take.github.io gehostet.
English
Text-to-image models are trained using large datasets collected by scraping image-text pairs from the internet. These datasets often include private, copyrighted, and licensed material. Training models on such datasets enables them to generate images with such content, which might violate copyright laws and individual privacy. This phenomenon is termed imitation -- generation of images with content that has recognizable similarity to its training images. In this work we study the relationship between a concept's frequency in the training dataset and the ability of a model to imitate it. We seek to determine the point at which a model was trained on enough instances to imitate a concept -- the imitation threshold. We posit this question as a new problem: Finding the Imitation Threshold (FIT) and propose an efficient approach that estimates the imitation threshold without incurring the colossal cost of training multiple models from scratch. We experiment with two domains -- human faces and art styles -- for which we create four datasets, and evaluate three text-to-image models which were trained on two pretraining datasets. Our results reveal that the imitation threshold of these models is in the range of 200-600 images, depending on the domain and the model. The imitation threshold can provide an empirical basis for copyright violation claims and acts as a guiding principle for text-to-image model developers that aim to comply with copyright and privacy laws. We release the code and data at https://github.com/vsahil/MIMETIC-2.git and the project's website is hosted at https://how-many-van-goghs-does-it-take.github.io.

Summary

AI-Generated Summary

PDF63November 16, 2024