Toxiciteit van de Gemeenschappelijkheid: Het Cureren van Open-Source Vooraf Getrainde Data

Samenvatting

Open-source grote taalmodellen worden steeds meer beschikbaar en populair onder onderzoekers en professionals. Hoewel er aanzienlijke vooruitgang is geboekt met open-gewichtsmodellen, is open trainingsdata een praktijk die nog niet is overgenomen door de belangrijkste makers van open-gewichtsmodellen. Tegelijkertijd werken onderzoekers eraan om taalmodellen veiliger te maken. Wij stellen een gegevenscuratiepijplijn voor om schadelijke uitvoer van modellen die zijn getraind op openbare domeingegevens te verminderen. Er zijn unieke uitdagingen bij het werken met openbare domeingegevens, omdat deze bronnen verschillen van webtekst zowel in vorm als inhoud. Veel bronnen zijn historische documenten en zijn het resultaat van optische tekenherkenning (OCR). Als gevolg hiervan zijn de huidige state-of-the-art benaderingen voor toxiciteitsfiltering vaak onhaalbaar of ongeschikt voor open data modellen. In dit artikel introduceren we een nieuwe volledig open-source pijplijn voor het filteren van toxiciteit in open data. Onze bijdragen zijn drievoudig. We creëren een aangepaste trainingsdataset, ToxicCommons, die bestaat uit teksten die zijn geclassificeerd op vijf verschillende dimensies (raciale/origine-gebaseerde, gender/seks-gebaseerde, religieuze, op basis van vermogen gediscrimineerde en gewelddadige discriminatie). We gebruiken deze dataset om een aangepaste classifier, Celadon, te trainen die toxiciteit in open data efficiënter op grotere schaal kan detecteren. Tot slot beschrijven we de gebalanceerde benadering van inhoudsfiltratie die de veiligheidsfiltering optimaliseert met betrekking tot de gefilterde gegevens die beschikbaar zijn voor training.

English

Open-source large language models are becoming increasingly available and popular among researchers and practitioners. While significant progress has been made on open-weight models, open training data is a practice yet to be adopted by the leading open-weight models creators. At the same time, there researchers are working to make language models safer. We propose a data curation pipeline to reduce harmful outputs by models trained on public domain data. There are unique challenges to working with public domain data, as these sources differ from web text in both form and content. Many sources are historical documents and are the result of Optical Character Recognition (OCR). Consequently, current state-of-the-art approaches to toxicity filtering are often infeasible or inappropriate for open data models. In this paper, we introduce a new fully open-source pipeline for open-data toxicity filtering. Our contributions are threefold. We create a custom training dataset, ToxicCommons, which is composed of texts which have been classified across five different dimensions (racial/origin-based, gender/sex-based, religious, ability-based discrimination, and violence). We use this dataset to train a custom classifier, Celadon, that can be used to detect toxic content in open data more efficiently at a larger scale. Finally, we describe the balanced approach to content filtration that optimizes safety filtering with respect to the filtered data available for training.

Toxiciteit van de Gemeenschappelijkheid: Het Cureren van Open-Source Vooraf Getrainde Data

Toxicity of the Commons: Curating Open-Source Pre-Training Data

Samenvatting

Support