ChatPaper.aiChatPaper

SwiLTra-Bench: Швейцарский эталонный набор для юридического перевода

SwiLTra-Bench: The Swiss Legal Translation Benchmark

March 3, 2025
Авторы: Joel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen
cs.AI

Аннотация

В Швейцарии юридический перевод имеет особое значение из-за четырех официальных языков страны и требований к многоязычной юридической документации. Однако этот процесс традиционно зависит от профессионалов, которые должны быть одновременно экспертами в области права и квалифицированными переводчиками, что создает узкие места и влияет на эффективный доступ к правосудию. Для решения этой проблемы мы представляем SwiLTra-Bench — всеобъемлющий многоязычный бенчмарк, содержащий более 180 тысяч пар выровненных швейцарских юридических переводов, включающих законы, заголовки и пресс-релизы на всех швейцарских языках, а также на английском, предназначенный для оценки систем перевода на основе языковых моделей (LLM). Наше систематическое исследование показывает, что передовые модели достигают превосходных результатов в переводе всех типов документов, тогда как специализированные системы перевода особенно хорошо справляются с законами, но уступают в переводе заголовков. Благодаря тщательному тестированию и проверке экспертами мы демонстрируем, что, хотя тонкая настройка открытых SLM значительно улучшает качество их перевода, они все же отстают от лучших моделей, таких как Claude-3.5-Sonnet, работающих в режиме zero-shot. Кроме того, мы представляем SwiLTra-Judge — специализированную систему оценки LLM, которая лучше всего соответствует оценкам экспертов-людей.
English
In Switzerland legal translation is uniquely important due to the country's four official languages and requirements for multilingual legal documentation. However, this process traditionally relies on professionals who must be both legal experts and skilled translators -- creating bottlenecks and impacting effective access to justice. To address this challenge, we introduce SwiLTra-Bench, a comprehensive multilingual benchmark of over 180K aligned Swiss legal translation pairs comprising laws, headnotes, and press releases across all Swiss languages along with English, designed to evaluate LLM-based translation systems. Our systematic evaluation reveals that frontier models achieve superior translation performance across all document types, while specialized translation systems excel specifically in laws but under-perform in headnotes. Through rigorous testing and human expert validation, we demonstrate that while fine-tuning open SLMs significantly improves their translation quality, they still lag behind the best zero-shot prompted frontier models such as Claude-3.5-Sonnet. Additionally, we present SwiLTra-Judge, a specialized LLM evaluation system that aligns best with human expert assessments.

Summary

AI-Generated Summary

PDF22March 6, 2025