Histoires Morales: Een Franse dataset voor het beoordelen van morele afstemming.

Histoires Morales: A French Dataset for Assessing Moral Alignment

January 28, 2025
Auteurs: Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
cs.AI

Samenvatting

Het afstemmen van taalmodellen op menselijke waarden is cruciaal, vooral nu ze steeds meer geïntegreerd raken in het dagelijks leven. Hoewel modellen vaak worden aangepast aan de voorkeuren van gebruikers, is het even belangrijk om ervoor te zorgen dat ze in lijn zijn met morele normen en gedrag in sociale situaties in de echte wereld. Ondanks aanzienlijke vooruitgang in talen zoals Engels en Chinees, heeft het Frans weinig aandacht gekregen op dit gebied, waardoor er een lacune is in het begrip van hoe LLM's morele redenering in deze taal verwerken. Om deze lacune aan te pakken, introduceren we Histoires Morales, een Frans dataset afgeleid van Moral Stories, gecreëerd door vertaling en vervolgens verfijnd met hulp van moedertaalsprekers om grammaticale nauwkeurigheid en aanpassing aan de Franse culturele context te garanderen. We vertrouwen ook op annotaties van de morele waarden binnen de dataset om ervoor te zorgen dat ze in lijn zijn met Franse normen. Histoires Morales bestrijkt een breed scala aan sociale situaties, waaronder verschillen in fooigedrag, uitingen van eerlijkheid in relaties en verantwoordelijkheden ten opzichte van dieren. Om toekomstig onderzoek te bevorderen, voeren we ook voorlopige experimenten uit over de afstemming van meertalige modellen op Franse en Engelse data en de robuustheid van de afstemming. We constateren dat hoewel LLM's over het algemeen standaard in lijn zijn met menselijke morele normen, ze gemakkelijk beïnvloed kunnen worden met optimalisatie van gebruikersvoorkeuren voor zowel morele als immorele data.
English
Aligning language models with human values is crucial, especially as they become more integrated into everyday life. While models are often adapted to user preferences, it is equally important to ensure they align with moral norms and behaviours in real-world social situations. Despite significant progress in languages like English and Chinese, French has seen little attention in this area, leaving a gap in understanding how LLMs handle moral reasoning in this language. To address this gap, we introduce Histoires Morales, a French dataset derived from Moral Stories, created through translation and subsequently refined with the assistance of native speakers to guarantee grammatical accuracy and adaptation to the French cultural context. We also rely on annotations of the moral values within the dataset to ensure their alignment with French norms. Histoires Morales covers a wide range of social situations, including differences in tipping practices, expressions of honesty in relationships, and responsibilities toward animals. To foster future research, we also conduct preliminary experiments on the alignment of multilingual models on French and English data and the robustness of the alignment. We find that while LLMs are generally aligned with human moral norms by default, they can be easily influenced with user-preference optimization for both moral and immoral data.

Summary

AI-Generated Summary

PDF21January 29, 2025