Richtlinien für bewährte Verfahren bei offenen Datensätzen für das Training von LLM
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
Autoren: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
Zusammenfassung
Viele KI-Unternehmen trainieren ihre großen Sprachmodelle (LLMs) ohne die Erlaubnis der Urheber der Daten. Die Zulässigkeit variiert je nach Rechtsprechung: In Ländern wie der EU und Japan ist dies unter bestimmten Einschränkungen erlaubt, während die rechtliche Lage in den Vereinigten Staaten unklarer ist. Unabhängig vom rechtlichen Status haben Bedenken von Kreativschaffenden zu mehreren prominenten Urheberrechtsklagen geführt, und die Bedrohung durch Rechtsstreitigkeiten wird häufig als Grund für den aktuellen Trend zur Minimierung der Informationen über Trainingsdatensätze sowohl von Unternehmens- als auch von öffentlichen Interessengruppen genannt. Diese Tendenz zur Begrenzung von Dateninformationen schadet, indem sie Transparenz, Rechenschaftspflicht und Innovation im breiteren Ökosystem behindert, da Forschern, Prüfern und betroffenen Personen der Zugang zu den Informationen verwehrt wird, die benötigt werden, um KI-Modelle zu verstehen.
Dies könnte durch das Training von Sprachmodellen mit frei zugänglichen und gemeinfreien Daten gemildert werden, aber zum Zeitpunkt der Abfassung gibt es keine solchen Modelle (die in signifikantem Umfang trainiert wurden) aufgrund der erheblichen technischen und soziologischen Herausforderungen beim Zusammenstellen des erforderlichen Korpus. Diese Herausforderungen umfassen unvollständige und unzuverlässige Metadaten, die Kosten und Komplexität der Digitalisierung physischer Aufzeichnungen und die vielfältigen rechtlichen und technischen Fähigkeiten, die erforderlich sind, um Relevanz und Verantwortung in einem sich schnell verändernden Umfeld sicherzustellen. Die Entwicklung hin zu einer Zukunft, in der KI-Systeme auf offen lizenzierten Daten trainiert werden können, die verantwortungsbewusst kuratiert und verwaltet werden, erfordert eine Zusammenarbeit über rechtliche, technische und politische Bereiche hinweg sowie Investitionen in Metadatenstandards, Digitalisierung und die Förderung einer Kultur der Offenheit.
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary