LLMトレーニング用オープンデータセットのベストプラクティスに向けて
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
著者: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
要旨
多くのAI企業は、著作権所有者の許可を得ずにデータ上で大規模言語モデル(LLM)を訓練しています。これに対する許容性は、司法管轄区によって異なります。EUや日本などの国では、一定の制約の下でこれが許可されていますが、アメリカ合衆国では法的状況がより曖昧です。法的地位に関わらず、クリエイティブプロデューサーからの懸念がいくつかの著作権訴訟につながり、訴訟の脅威は、最近のトレンドが企業や公益団体の両方によって訓練データセットに関する情報を最小限にする理由として一般的に引用されています。データ情報の制限トレンドは、研究者、監査人、および影響を受ける個人がAIモデルを理解するために必要な情報へのアクセスを拒否することで、透明性、説明責任、および広範なエコシステムにおける革新を妨げる害をもたらします。
これは、オープンアクセスおよびパブリックドメインデータで言語モデルを訓練することで緩和される可能性がありますが、執筆時点では、必要なコーパスを組み立てるための著しい技術的および社会的課題のため、そのようなモデルは(意義のあるスケールで訓練されたものは)存在しません。これらの課題には、不完全で信頼性のないメタデータ、物理的記録のデジタル化のコストと複雑さ、迅速に変化する状況で関連性と責任を確保するために必要な多様な法的および技術的スキルセットが含まれます。AIシステムが責任を持ってキュレーションおよび管理されたオープンライセンスデータで訓練される未来に向けて構築するには、法的、技術的、および政策領域を横断する協力が必要であり、メタデータ標準、デジタル化、およびオープンな文化の育成への投資が必要です。
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary