ChatPaper.aiChatPaper

SynthDetoxM: 현대 LLM은 소수샷 병렬 해독 데이터 주석자들

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

February 10, 2025
저자: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI

초록

다국어 텍스트 정제에 대한 기존 접근 방식은 병렬 다국어 데이터셋의 부족으로 인해 제약을 받고 있습니다. 본 연구에서는 다국어 병렬 정제 데이터 생성을 위한 파이프라인을 소개합니다. 또한 SynthDetoxM을 소개합니다. 이는 독일어, 프랑스어, 스페인어 및 러시아어에 걸쳐 16,000개의 고품질 정제 문장 쌍으로 이루어진 수작업 수집 및 합성 생성 다국어 병렬 텍스트 정제 데이터셋입니다. 이 데이터는 다양한 독성 평가 데이터셋에서 수집되었으며, 그 후에 9가지 최신 오픈 소스 LLMs로 몇 가지 샷 설정에서 다시 작성되었습니다. 우리의 실험 결과, 생성된 합성 데이터셋으로 훈련된 모델이 데이터 제한적인 환경에서도 인간 주석이 달린 MultiParaDetox 데이터셋으로 훈련된 모델보다 우수한 성능을 보여줍니다. SynthDetoxM으로 훈련된 모델은 샷 설정에서 모든 평가된 LLMs보다 우수한 성능을 보입니다. 우리는 다국어 텍스트 정제에 대한 추가 연구를 돕기 위해 데이터셋과 코드를 공개합니다.
English
Existing approaches to multilingual text detoxification are hampered by the scarcity of parallel multilingual datasets. In this work, we introduce a pipeline for the generation of multilingual parallel detoxification data. We also introduce SynthDetoxM, a manually collected and synthetically generated multilingual parallel text detoxification dataset comprising 16,000 high-quality detoxification sentence pairs across German, French, Spanish and Russian. The data was sourced from different toxicity evaluation datasets and then rewritten with nine modern open-source LLMs in few-shot setting. Our experiments demonstrate that models trained on the produced synthetic datasets have superior performance to those trained on the human-annotated MultiParaDetox dataset even in data limited setting. Models trained on SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our dataset and code to help further research in multilingual text detoxification.

Summary

AI-Generated Summary

PDF852February 11, 2025