К лучшим практикам использования открытых наборов данных для обучения моделей языкового моделирования.

Towards Best Practices for Open Datasets for LLM Training

January 14, 2025
Авторы: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI

Аннотация

Многие компании по искусственному интеллекту обучают свои большие языковые модели (LLM) на данных без разрешения владельцев авторских прав. Допустимость таких действий варьируется в зависимости от юрисдикции: в странах, таких как ЕС и Япония, это разрешено при определенных ограничениях, в то время как в Соединенных Штатах юридическая обстановка более неоднозначна. Независимо от юридического статуса, опасения со стороны творческих производителей привели к нескольким знаковым судебным разбирательствам по вопросам авторских прав, и угроза судебных разбирательств часто упоминается как причина последнего тренда к минимизации информации, раскрываемой о наборах данных для обучения как корпоративными, так и общественными участниками. Этот тренд ограничения информации о данных наносит вред, затрудняя прозрачность, ответственность и инновации в широкой экосистеме, отказывая исследователям, аудиторам и затронутым лицам доступ к информации, необходимой для понимания моделей искусственного интеллекта. Хотя это можно было бы смягчить, обучая языковые модели на открытых и общедоступных данных, на момент написания нет таких моделей (обученных в значительном масштабе) из-за существенных технических и социологических вызовов в сборе необходимого корпуса. Эти вызовы включают неполные и ненадежные метаданные, стоимость и сложность цифровизации физических записей, а также разнообразие юридических и технических навыков, необходимых для обеспечения актуальности и ответственности в быстро меняющейся обстановке. Достижение будущего, в котором системы искусственного интеллекта могут обучаться на открытых лицензионных данных, которые ответственно курируются и управляются, требует совместной работы в области юридических, технических и политических сферах, а также инвестиций в стандарты метаданных, цифровизацию и формирование культуры открытости.
English
Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.

Summary

AI-Generated Summary

PDF403January 16, 2025