ChatPaper.aiChatPaper

Проект Alexandria: К освобождению научных знаний от ограничений авторского права с помощью языковых моделей

Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

February 26, 2025
Авторы: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI

Аннотация

Платные подписки, лицензии и правила авторского права часто ограничивают широкое распространение и повторное использование научных знаний. Мы придерживаемся позиции, что извлечение научных знаний из академических текстов является как юридически, так и технически осуществимым. Современные методы, такие как текстовые эмбеддинги, не обеспечивают надежного сохранения фактического содержания, а простое перефразирование может быть юридически несостоятельным. Мы призываем сообщество принять новую идею: преобразование научных документов в "Единицы знаний" с использованием языковых моделей (LLM). Эти единицы используют структурированные данные, фиксирующие сущности, атрибуты и отношения, без стилистического содержания. Мы предоставляем доказательства того, что Единицы знаний: (1) формируют юридически защищаемую основу для обмена знаниями из текстов, защищенных авторским правом, на основе анализа немецкого законодательства об авторском праве и доктрины "добросовестного использования" в США, и (2) сохраняют большую часть (~95%) фактических знаний из оригинального текста, что измеряется производительностью на тестах с множественным выбором (MCQ) по фактам из оригинального текста в четырех исследовательских областях. Освобождение научных знаний от ограничений авторского права обещает трансформационные преимущества для научных исследований и образования, позволяя языковым моделям повторно использовать важные факты из защищенных текстов. Для поддержки этого мы предоставляем открытые инструменты для преобразования исследовательских документов в Единицы знаний. В целом, наша работа утверждает возможность демократизации доступа к научным знаниям при уважении авторских прав.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.

Summary

AI-Generated Summary

PDF193February 27, 2025