Toxicité des biens communs : la curation des données de pré-entraînement en source ouverte

Résumé

Les modèles de langage de grande taille en open source deviennent de plus en plus disponibles et populaires parmi les chercheurs et les praticiens. Alors que des progrès significatifs ont été réalisés sur les modèles de poids ouverts, l'utilisation de données d'entraînement ouvertes est une pratique qui reste à adopter par les principaux créateurs de modèles de poids ouverts. En même temps, les chercheurs travaillent à rendre les modèles de langage plus sûrs. Nous proposons un pipeline de curation des données pour réduire les sorties nuisibles des modèles entraînés sur des données de domaine public. Il existe des défis uniques à travailler avec des données de domaine public, car ces sources diffèrent des textes web à la fois en forme et en contenu. De nombreuses sources sont des documents historiques et résultent de la Reconnaissance Optique de Caractères (OCR). Par conséquent, les approches de pointe en matière de filtrage de toxicité sont souvent irréalisables ou inappropriées pour les modèles de données ouvertes. Dans cet article, nous présentons un nouveau pipeline entièrement open source pour le filtrage de la toxicité des données ouvertes. Nos contributions sont triples. Nous créons un ensemble de données d'entraînement personnalisé, ToxicCommons, composé de textes classifiés selon cinq dimensions différentes (discrimination basée sur l'origine raciale, le genre/sexe, la religion, les capacités et la violence). Nous utilisons cet ensemble de données pour entraîner un classifieur personnalisé, Celadon, qui peut être utilisé pour détecter plus efficacement les contenus toxiques dans les données ouvertes à plus grande échelle. Enfin, nous décrivons l'approche équilibrée de la filtration du contenu qui optimise le filtrage de sécurité par rapport aux données filtrées disponibles pour l'entraînement.

English

Open-source large language models are becoming increasingly available and popular among researchers and practitioners. While significant progress has been made on open-weight models, open training data is a practice yet to be adopted by the leading open-weight models creators. At the same time, there researchers are working to make language models safer. We propose a data curation pipeline to reduce harmful outputs by models trained on public domain data. There are unique challenges to working with public domain data, as these sources differ from web text in both form and content. Many sources are historical documents and are the result of Optical Character Recognition (OCR). Consequently, current state-of-the-art approaches to toxicity filtering are often infeasible or inappropriate for open data models. In this paper, we introduce a new fully open-source pipeline for open-data toxicity filtering. Our contributions are threefold. We create a custom training dataset, ToxicCommons, which is composed of texts which have been classified across five different dimensions (racial/origin-based, gender/sex-based, religious, ability-based discrimination, and violence). We use this dataset to train a custom classifier, Celadon, that can be used to detect toxic content in open data more efficiently at a larger scale. Finally, we describe the balanced approach to content filtration that optimizes safety filtering with respect to the filtered data available for training.

Toxicité des biens communs : la curation des données de pré-entraînement en source ouverte

Toxicity of the Commons: Curating Open-Source Pre-Training Data

Résumé

Support