LLMsの翻訳の誤り：M-ALERTがクロス言語セーフティギャップを明らかにする

要旨

複数言語にわたる安全な大規模言語モデル（LLM）の構築は、安全なアクセスと言語の多様性の両方を確保する上で重要です。このため、私たちはM-ALERTを導入します。これは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語でLLMの安全性を評価する多言語ベンチマークです。M-ALERTには、各言語あたり15,000の高品質プロンプトが含まれ、詳細なALERTタクソノミーに従って合計75,000のプロンプトがあります。10の最先端LLMに関する私たちの包括的な実験は、言語固有の安全性分析の重要性を浮き彫りにし、モデルがしばしば言語やカテゴリにわたって安全性において著しい不一致を示すことを明らかにしました。例えば、Llama3.2はイタリア語のcrime_taxカテゴリで高い不安全性を示す一方、他の言語では安全です。同様の違いはすべてのモデルで見られます。一方、substance_cannabisやcrime_propagandaなどの特定のカテゴリは、モデルや言語を問わず一貫して安全でない応答を引き起こします。これらの調査結果は、多様なユーザーコミュニティにおける安全で責任ある使用を確保するために、LLMにおける堅牢な多言語安全性の実践の必要性を強調しています。

English

Building safe Large Language Models (LLMs) across multiple languages is essential in ensuring both safe access and linguistic diversity. To this end, we introduce M-ALERT, a multilingual benchmark that evaluates the safety of LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT includes 15k high-quality prompts per language, totaling 75k, following the detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs highlight the importance of language-specific safety analysis, revealing that models often exhibit significant inconsistencies in safety across languages and categories. For instance, Llama3.2 shows high unsafety in the category crime_tax for Italian but remains safe in other languages. Similar differences can be observed across all models. In contrast, certain categories, such as substance_cannabis and crime_propaganda, consistently trigger unsafe responses across models and languages. These findings underscore the need for robust multilingual safety practices in LLMs to ensure safe and responsible usage across diverse user communities.

LLMsの翻訳の誤り：M-ALERTがクロス言語セーフティギャップを明らかにする

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

要旨

Summary

Support

Support