Toxiciteit van de Gemeenschappelijkheid: Het Cureren van Open-Source Vooraf Getrainde Data
Toxicity of the Commons: Curating Open-Source Pre-Training Data
October 29, 2024
Auteurs: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
cs.AI
Samenvatting
Open-source grote taalmodellen worden steeds meer beschikbaar en populair onder onderzoekers en professionals. Hoewel er aanzienlijke vooruitgang is geboekt met open-gewichtsmodellen, is open trainingsdata een praktijk die nog niet is overgenomen door de belangrijkste makers van open-gewichtsmodellen. Tegelijkertijd werken onderzoekers eraan om taalmodellen veiliger te maken. Wij stellen een gegevenscuratiepijplijn voor om schadelijke uitvoer van modellen die zijn getraind op openbare domeingegevens te verminderen. Er zijn unieke uitdagingen bij het werken met openbare domeingegevens, omdat deze bronnen verschillen van webtekst zowel in vorm als inhoud. Veel bronnen zijn historische documenten en zijn het resultaat van optische tekenherkenning (OCR). Als gevolg hiervan zijn de huidige state-of-the-art benaderingen voor toxiciteitsfiltering vaak onhaalbaar of ongeschikt voor open data modellen. In dit artikel introduceren we een nieuwe volledig open-source pijplijn voor het filteren van toxiciteit in open data. Onze bijdragen zijn drievoudig. We creëren een aangepaste trainingsdataset, ToxicCommons, die bestaat uit teksten die zijn geclassificeerd op vijf verschillende dimensies (raciale/origine-gebaseerde, gender/seks-gebaseerde, religieuze, op basis van vermogen gediscrimineerde en gewelddadige discriminatie). We gebruiken deze dataset om een aangepaste classifier, Celadon, te trainen die toxiciteit in open data efficiënter op grotere schaal kan detecteren. Tot slot beschrijven we de gebalanceerde benadering van inhoudsfiltratie die de veiligheidsfiltering optimaliseert met betrekking tot de gefilterde gegevens die beschikbaar zijn voor training.
English
Open-source large language models are becoming increasingly available and
popular among researchers and practitioners. While significant progress has
been made on open-weight models, open training data is a practice yet to be
adopted by the leading open-weight models creators. At the same time, there
researchers are working to make language models safer. We propose a data
curation pipeline to reduce harmful outputs by models trained on public domain
data. There are unique challenges to working with public domain data, as these
sources differ from web text in both form and content. Many sources are
historical documents and are the result of Optical Character Recognition (OCR).
Consequently, current state-of-the-art approaches to toxicity filtering are
often infeasible or inappropriate for open data models. In this paper, we
introduce a new fully open-source pipeline for open-data toxicity filtering.
Our contributions are threefold. We create a custom training dataset,
ToxicCommons, which is composed of texts which have been classified across five
different dimensions (racial/origin-based, gender/sex-based, religious,
ability-based discrimination, and violence). We use this dataset to train a
custom classifier, Celadon, that can be used to detect toxic content in open
data more efficiently at a larger scale. Finally, we describe the balanced
approach to content filtration that optimizes safety filtering with respect to
the filtered data available for training.Summary
AI-Generated Summary