Toxicité des biens communs : la curation des données de pré-entraînement en source ouverte
Toxicity of the Commons: Curating Open-Source Pre-Training Data
October 29, 2024
Auteurs: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
cs.AI
Résumé
Les modèles de langage de grande taille en open source deviennent de plus en plus disponibles et populaires parmi les chercheurs et les praticiens. Alors que des progrès significatifs ont été réalisés sur les modèles de poids ouverts, l'utilisation de données d'entraînement ouvertes est une pratique qui reste à adopter par les principaux créateurs de modèles de poids ouverts. En même temps, les chercheurs travaillent à rendre les modèles de langage plus sûrs. Nous proposons un pipeline de curation des données pour réduire les sorties nuisibles des modèles entraînés sur des données de domaine public. Il existe des défis uniques à travailler avec des données de domaine public, car ces sources diffèrent des textes web à la fois en forme et en contenu. De nombreuses sources sont des documents historiques et résultent de la Reconnaissance Optique de Caractères (OCR). Par conséquent, les approches de pointe en matière de filtrage de toxicité sont souvent irréalisables ou inappropriées pour les modèles de données ouvertes. Dans cet article, nous présentons un nouveau pipeline entièrement open source pour le filtrage de la toxicité des données ouvertes. Nos contributions sont triples. Nous créons un ensemble de données d'entraînement personnalisé, ToxicCommons, composé de textes classifiés selon cinq dimensions différentes (discrimination basée sur l'origine raciale, le genre/sexe, la religion, les capacités et la violence). Nous utilisons cet ensemble de données pour entraîner un classifieur personnalisé, Celadon, qui peut être utilisé pour détecter plus efficacement les contenus toxiques dans les données ouvertes à plus grande échelle. Enfin, nous décrivons l'approche équilibrée de la filtration du contenu qui optimise le filtrage de sécurité par rapport aux données filtrées disponibles pour l'entraînement.
English
Open-source large language models are becoming increasingly available and
popular among researchers and practitioners. While significant progress has
been made on open-weight models, open training data is a practice yet to be
adopted by the leading open-weight models creators. At the same time, there
researchers are working to make language models safer. We propose a data
curation pipeline to reduce harmful outputs by models trained on public domain
data. There are unique challenges to working with public domain data, as these
sources differ from web text in both form and content. Many sources are
historical documents and are the result of Optical Character Recognition (OCR).
Consequently, current state-of-the-art approaches to toxicity filtering are
often infeasible or inappropriate for open data models. In this paper, we
introduce a new fully open-source pipeline for open-data toxicity filtering.
Our contributions are threefold. We create a custom training dataset,
ToxicCommons, which is composed of texts which have been classified across five
different dimensions (racial/origin-based, gender/sex-based, religious,
ability-based discrimination, and violence). We use this dataset to train a
custom classifier, Celadon, that can be used to detect toxic content in open
data more efficiently at a larger scale. Finally, we describe the balanced
approach to content filtration that optimizes safety filtering with respect to
the filtered data available for training.Summary
AI-Generated Summary