Richtlinien für bewährte Verfahren bei offenen Datensätzen für das Training von LLM

Towards Best Practices for Open Datasets for LLM Training

January 14, 2025
Autoren: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI

Zusammenfassung

Viele KI-Unternehmen trainieren ihre großen Sprachmodelle (LLMs) ohne die Erlaubnis der Urheber der Daten. Die Zulässigkeit variiert je nach Rechtsprechung: In Ländern wie der EU und Japan ist dies unter bestimmten Einschränkungen erlaubt, während die rechtliche Lage in den Vereinigten Staaten unklarer ist. Unabhängig vom rechtlichen Status haben Bedenken von Kreativschaffenden zu mehreren prominenten Urheberrechtsklagen geführt, und die Bedrohung durch Rechtsstreitigkeiten wird häufig als Grund für den aktuellen Trend zur Minimierung der Informationen über Trainingsdatensätze sowohl von Unternehmens- als auch von öffentlichen Interessengruppen genannt. Diese Tendenz zur Begrenzung von Dateninformationen schadet, indem sie Transparenz, Rechenschaftspflicht und Innovation im breiteren Ökosystem behindert, da Forschern, Prüfern und betroffenen Personen der Zugang zu den Informationen verwehrt wird, die benötigt werden, um KI-Modelle zu verstehen. Dies könnte durch das Training von Sprachmodellen mit frei zugänglichen und gemeinfreien Daten gemildert werden, aber zum Zeitpunkt der Abfassung gibt es keine solchen Modelle (die in signifikantem Umfang trainiert wurden) aufgrund der erheblichen technischen und soziologischen Herausforderungen beim Zusammenstellen des erforderlichen Korpus. Diese Herausforderungen umfassen unvollständige und unzuverlässige Metadaten, die Kosten und Komplexität der Digitalisierung physischer Aufzeichnungen und die vielfältigen rechtlichen und technischen Fähigkeiten, die erforderlich sind, um Relevanz und Verantwortung in einem sich schnell verändernden Umfeld sicherzustellen. Die Entwicklung hin zu einer Zukunft, in der KI-Systeme auf offen lizenzierten Daten trainiert werden können, die verantwortungsbewusst kuratiert und verwaltet werden, erfordert eine Zusammenarbeit über rechtliche, technische und politische Bereiche hinweg sowie Investitionen in Metadatenstandards, Digitalisierung und die Förderung einer Kultur der Offenheit.
English
Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.

Summary

AI-Generated Summary

PDF393January 16, 2025