ChatPaper.aiChatPaper

LLM 훈련용 오픈 데이터셋을 위한 모범 사례로의 진화

Towards Best Practices for Open Datasets for LLM Training

January 14, 2025
저자: Stefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf
cs.AI

초록

많은 AI 기업들이 저작권 소유자의 허락 없이 대용량 언어 모델 (LLM)을 데이터로 학습시키고 있습니다. 이러한 행위의 허용 여부는 관할 지역에 따라 다릅니다: EU나 일본과 같은 국가에서는 일부 제한 하에 허용되지만, 미국에서는 법적 상황이 더 모호합니다. 법적 지위와는 무관하게, 창작물 제작자들의 우려로 인해 여러 주목할만한 저작권 소송이 발생했으며, 소송 위협은 최근 데이터셋 훈련 정보를 제한하는 추세로 이어지고 있습니다. 기업 및 공익 당사자들 모두가 훈련 데이터셋에 대한 정보를 최소화하려는 이 추세는 투명성, 책임성 및 혁신을 방해하여 넓은 생태계에서 연구자, 감사자 및 영향을 받는 개인들이 AI 모델을 이해하기 위해 필요한 정보에 접근할 수 없도록 합니다. 이 문제는 공개 접근 및 공공 도메인 데이터로 언어 모델을 훈련시킴으로써 완화될 수 있습니다. 그러나 현재로서는, 필요한 말뭉치를 구성하는 데 상당한 기술적 및 사회학적 도전이 있어 의미 있는 규모로 훈련된 모델이 없습니다. 이러한 도전은 불완전하고 신뢰할 수 없는 메타데이터, 물리적 기록을 디지털화하는 비용과 복잡성, 그리고 빠르게 변화하는 환경에서 관련성과 책임성을 보장하기 위해 필요한 다양한 법적 및 기술적 기술 세트를 포함합니다. AI 시스템이 책임 있게 선별되고 통제되는 공개 라이선스 데이터로 훈련될 수 있는 미래를 향해 나아가기 위해서는 법적, 기술 및 정책 분야 간의 협력이 필요하며, 메타데이터 표준, 디지털화 및 개방 문화 육성에 대한 투자가 필요합니다.
English
Many AI companies are training their large language models (LLMs) on data without the permission of the copyright owners. The permissibility of doing so varies by jurisdiction: in countries like the EU and Japan, this is allowed under certain restrictions, while in the United States, the legal landscape is more ambiguous. Regardless of the legal status, concerns from creative producers have led to several high-profile copyright lawsuits, and the threat of litigation is commonly cited as a reason for the recent trend towards minimizing the information shared about training datasets by both corporate and public interest actors. This trend in limiting data information causes harm by hindering transparency, accountability, and innovation in the broader ecosystem by denying researchers, auditors, and impacted individuals access to the information needed to understand AI models. While this could be mitigated by training language models on open access and public domain data, at the time of writing, there are no such models (trained at a meaningful scale) due to the substantial technical and sociological challenges in assembling the necessary corpus. These challenges include incomplete and unreliable metadata, the cost and complexity of digitizing physical records, and the diverse set of legal and technical skills required to ensure relevance and responsibility in a quickly changing landscape. Building towards a future where AI systems can be trained on openly licensed data that is responsibly curated and governed requires collaboration across legal, technical, and policy domains, along with investments in metadata standards, digitization, and fostering a culture of openness.

Summary

AI-Generated Summary

PDF553January 16, 2025