Naar Richtlijnen voor Beste Praktijken voor Open Datasets voor LLM Training
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
Auteurs: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
Samenvatting
Veel AI-bedrijven trainen hun grote taalmodellen (LLM's) met gegevens zonder toestemming van de auteursrechteigenaars. De toelaatbaarheid hiervan varieert per rechtsgebied: in landen zoals de EU en Japan is dit toegestaan onder bepaalde beperkingen, terwijl de juridische situatie in de Verenigde Staten meer ambigu is. Ongeacht de juridische status hebben zorgen van creatieve producenten geleid tot verschillende spraakmakende auteursrechtzaken, en de dreiging van rechtszaken wordt vaak aangehaald als reden voor de recente trend om de informatie die wordt gedeeld over trainingsdatasets te minimaliseren door zowel bedrijven als belangenbehartigers. Deze trend om de informatie over data te beperken veroorzaakt schade door het belemmeren van transparantie, verantwoording en innovatie in het bredere ecosysteem, doordat onderzoekers, controleurs en getroffen personen de benodigde informatie ontzegd wordt om AI-modellen te begrijpen.
Hoewel dit zou kunnen worden verminderd door taalmodellen te trainen op open toegankelijke en publieke domeingegevens, bestaan er op dit moment geen dergelijke modellen (op een betekenisvolle schaal getraind) vanwege de aanzienlijke technische en sociologische uitdagingen bij het samenstellen van het benodigde corpus. Deze uitdagingen omvatten onvolledige en onbetrouwbare metadata, de kosten en complexiteit van het digitaliseren van fysieke archieven, en de diverse set van juridische en technische vaardigheden die nodig zijn om relevantie en verantwoordelijkheid te waarborgen in een snel veranderend landschap. Het streven naar een toekomst waarin AI-systemen kunnen worden getraind op openlijk gelicentieerde gegevens die verantwoord worden samengesteld en beheerd, vereist samenwerking over juridische, technische en beleidsdomeinen, naast investeringen in metadatastandaarden, digitalisering en het bevorderen van een cultuur van openheid.
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary