Verso le Migliori Pratiche per i Dataset Aperti per l'Addestramento di Modelli Linguistici Long Short-Term Memory (LLM)

Towards Best Practices for Open Datasets for LLM Training

January 14, 2025
Autori: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI

Abstract

Molte aziende di intelligenza artificiale stanno addestrando i loro grandi modelli linguistici (LLM) su dati senza il permesso dei proprietari dei diritti d'autore. La possibilità di farlo varia a seconda della giurisdizione: in paesi come l'UE e il Giappone, ciò è consentito sotto certe restrizioni, mentre negli Stati Uniti, il quadro legale è più ambiguo. Indipendentemente dallo stato legale, le preoccupazioni dei produttori creativi hanno portato a diversi ricorsi per violazione del copyright di alto profilo, e la minaccia di azioni legali è comunemente citata come motivo per il recente trend verso la minimizzazione delle informazioni condivise sui set di dati di addestramento sia da attori aziendali che di interesse pubblico. Questo trend nel limitare le informazioni sui dati causa danni ostacolando la trasparenza, la responsabilità e l'innovazione nell'ecosistema più ampio, negando ai ricercatori, agli ispettori e alle persone interessate l'accesso alle informazioni necessarie per comprendere i modelli di intelligenza artificiale. Sebbene ciò potrebbe essere mitigato addestrando i modelli linguistici su dati di accesso aperto e di pubblico dominio, al momento della stesura di questo testo, non esistono modelli del genere (addestrati su una scala significativa) a causa delle notevoli sfide tecniche e sociologiche nel comporre il corpus necessario. Queste sfide includono metadati incompleti e non affidabili, il costo e la complessità della digitalizzazione di documenti fisici e il variegato insieme di competenze legali e tecniche necessarie per garantire rilevanza e responsabilità in un panorama in rapida evoluzione. Costruire un futuro in cui i sistemi di intelligenza artificiale possano essere addestrati su dati con licenza aperta che siano curati e governati in modo responsabile richiede la collaborazione tra ambiti legali, tecnici e politici, insieme a investimenti in standard di metadati, digitalizzazione e alla promozione di una cultura dell'apertura.
English
Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.

Summary

AI-Generated Summary

PDF403January 16, 2025