Rumo às Melhores Práticas para Conjuntos de Dados Abertos para Treinamento de LLM
Towards Best Practices for Open Datasets for LLM Training
January 14, 2025
Autores: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI
Resumo
Muitas empresas de IA estão treinando seus grandes modelos de linguagem (LLMs) em dados sem a permissão dos detentores dos direitos autorais. A permissibilidade desse procedimento varia de acordo com a jurisdição: em países como a UE e o Japão, isso é permitido sob certas restrições, enquanto nos Estados Unidos, o cenário legal é mais ambíguo. Independentemente do status legal, preocupações de produtores criativos resultaram em vários processos judiciais de direitos autorais de alto perfil, e a ameaça de litígio é frequentemente citada como motivo para a tendência recente de minimizar as informações compartilhadas sobre conjuntos de dados de treinamento por atores corporativos e de interesse público. Essa tendência de limitar as informações dos dados causa prejuízos ao dificultar a transparência, a responsabilidade e a inovação no ecossistema mais amplo, ao negar aos pesquisadores, auditores e indivíduos impactados o acesso às informações necessárias para entender os modelos de IA.
Embora isso possa ser atenuado ao treinar modelos de linguagem em dados de acesso aberto e de domínio público, no momento da escrita, não existem tais modelos (treinados em uma escala significativa) devido aos substanciais desafios técnicos e sociológicos na montagem do corpus necessário. Esses desafios incluem metadados incompletos e não confiáveis, o custo e a complexidade da digitalização de registros físicos, e o conjunto diversificado de habilidades legais e técnicas necessárias para garantir relevância e responsabilidade em um cenário em rápida mudança. Avançar em direção a um futuro onde sistemas de IA possam ser treinados em dados com licenças abertas que sejam responsavelmente curados e governados requer colaboração entre domínios legais, técnicos e de políticas, juntamente com investimentos em padrões de metadados, digitalização e promoção de uma cultura de abertura.
English
Many AI companies are training their large language models (LLMs) on data
without the permission of the copyright owners. The permissibility of doing so
varies by jurisdiction: in countries like the EU and Japan, this is allowed
under certain restrictions, while in the United States, the legal landscape is
more ambiguous. Regardless of the legal status, concerns from creative
producers have led to several high-profile copyright lawsuits, and the threat
of litigation is commonly cited as a reason for the recent trend towards
minimizing the information shared about training datasets by both corporate and
public interest actors. This trend in limiting data information causes harm by
hindering transparency, accountability, and innovation in the broader ecosystem
by denying researchers, auditors, and impacted individuals access to the
information needed to understand AI models.
While this could be mitigated by training language models on open access and
public domain data, at the time of writing, there are no such models (trained
at a meaningful scale) due to the substantial technical and sociological
challenges in assembling the necessary corpus. These challenges include
incomplete and unreliable metadata, the cost and complexity of digitizing
physical records, and the diverse set of legal and technical skills required to
ensure relevance and responsibility in a quickly changing landscape. Building
towards a future where AI systems can be trained on openly licensed data that
is responsibly curated and governed requires collaboration across legal,
technical, and policy domains, along with investments in metadata standards,
digitization, and fostering a culture of openness.Summary
AI-Generated Summary