Rumo às Melhores Práticas para Conjuntos de Dados Abertos para Treinamento de LLM

Towards Best Practices for Open Datasets for LLM Training

January 14, 2025
Autores: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI

Resumo

Muitas empresas de IA estão treinando seus grandes modelos de linguagem (LLMs) em dados sem a permissão dos detentores dos direitos autorais. A permissibilidade desse procedimento varia de acordo com a jurisdição: em países como a UE e o Japão, isso é permitido sob certas restrições, enquanto nos Estados Unidos, o cenário legal é mais ambíguo. Independentemente do status legal, preocupações de produtores criativos resultaram em vários processos judiciais de direitos autorais de alto perfil, e a ameaça de litígio é frequentemente citada como motivo para a tendência recente de minimizar as informações compartilhadas sobre conjuntos de dados de treinamento por atores corporativos e de interesse público. Essa tendência de limitar as informações dos dados causa prejuízos ao dificultar a transparência, a responsabilidade e a inovação no ecossistema mais amplo, ao negar aos pesquisadores, auditores e indivíduos impactados o acesso às informações necessárias para entender os modelos de IA. Embora isso possa ser atenuado ao treinar modelos de linguagem em dados de acesso aberto e de domínio público, no momento da escrita, não existem tais modelos (treinados em uma escala significativa) devido aos substanciais desafios técnicos e sociológicos na montagem do corpus necessário. Esses desafios incluem metadados incompletos e não confiáveis, o custo e a complexidade da digitalização de registros físicos, e o conjunto diversificado de habilidades legais e técnicas necessárias para garantir relevância e responsabilidade em um cenário em rápida mudança. Avançar em direção a um futuro onde sistemas de IA possam ser treinados em dados com licenças abertas que sejam responsavelmente curados e governados requer colaboração entre domínios legais, técnicos e de políticas, juntamente com investimentos em padrões de metadados, digitalização e promoção de uma cultura de abertura.
English
Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.

Summary

AI-Generated Summary

PDF403January 16, 2025