Tossicità dei Beni Comuni: Curare i Dati di Pre-Addestramento Open Source
Toxicity of the Commons: Curating Open-Source Pre-Training Data
October 29, 2024
Autori: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
cs.AI
Abstract
I modelli linguistici di grandi dimensioni open-source stanno diventando sempre più disponibili e popolari tra ricercatori e professionisti. Sebbene siano stati compiuti significativi progressi sui modelli open-weight, l'uso di dati di addestramento aperti è una pratica ancora da adottare da parte dei principali creatori di modelli open-weight. Allo stesso tempo, i ricercatori stanno lavorando per rendere i modelli linguistici più sicuri. Proponiamo un flusso di lavoro per la cura dei dati al fine di ridurre le uscite dannose dei modelli addestrati su dati di dominio pubblico. Ci sono sfide uniche nel lavorare con dati di dominio pubblico, poiché queste fonti differiscono dal testo web sia nella forma che nei contenuti. Molte fonti sono documenti storici e sono il risultato di riconoscimento ottico dei caratteri (OCR). Di conseguenza, gli approcci attuali allo stato dell'arte per la filtrazione della tossicità sono spesso irrealizzabili o inappropriati per i modelli di dati aperti. In questo articolo, presentiamo un nuovo flusso di lavoro completamente open-source per la filtrazione della tossicità dei dati aperti. Le nostre contribuzioni sono triple. Creiamo un dataset di addestramento personalizzato, ToxicCommons, composto da testi classificati in cinque diverse dimensioni (discriminazione basata su razza/origine, genere/sesso, religione, abilità e violenza). Utilizziamo questo dataset per addestrare un classificatore personalizzato, Celadon, che può essere utilizzato per rilevare contenuti tossici nei dati aperti in modo più efficiente su una scala più ampia. Infine, descriviamo l'approccio bilanciato alla filtrazione dei contenuti che ottimizza la sicurezza rispetto ai dati filtrati disponibili per l'addestramento.
English
Open-source large language models are becoming increasingly available and
popular among researchers and practitioners. While significant progress has
been made on open-weight models, open training data is a practice yet to be
adopted by the leading open-weight models creators. At the same time, there
researchers are working to make language models safer. We propose a data
curation pipeline to reduce harmful outputs by models trained on public domain
data. There are unique challenges to working with public domain data, as these
sources differ from web text in both form and content. Many sources are
historical documents and are the result of Optical Character Recognition (OCR).
Consequently, current state-of-the-art approaches to toxicity filtering are
often infeasible or inappropriate for open data models. In this paper, we
introduce a new fully open-source pipeline for open-data toxicity filtering.
Our contributions are threefold. We create a custom training dataset,
ToxicCommons, which is composed of texts which have been classified across five
different dimensions (racial/origin-based, gender/sex-based, religious,
ability-based discrimination, and violence). We use this dataset to train a
custom classifier, Celadon, that can be used to detect toxic content in open
data more efficiently at a larger scale. Finally, we describe the balanced
approach to content filtration that optimizes safety filtering with respect to
the filtered data available for training.Summary
AI-Generated Summary