Verloren in der kulturellen Übersetzung: Haben LLMs Schwierigkeiten mit Mathematik in verschiedenen kulturellen Kontexten?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
March 23, 2025
Autoren: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben verschiedene Bereiche erheblich vorangebracht, insbesondere das Programmieren, mathematisches Denken und logisches Problemlösen. Dennoch bleibt eine kritische Frage bestehen: Bleiben diese mathematischen Denkfähigkeiten erhalten, wenn LLMs mit kulturell angepassten mathematischen Problemen konfrontiert werden? Konkret: Wie schneiden LLMs ab, wenn sie mit mathematischen Problemen konfrontiert werden, die in kulturelle Kontexte eingebettet sind, die in den Mainstream-Webdaten für das Training von KI-Modellen nicht signifikant vertreten sind? Um dies zu untersuchen, haben wir sechs synthetische kulturelle Datensätze aus GSM8K generiert, einem weit verbreiteten Benchmark zur Bewertung der mathematischen Denkfähigkeiten von LLMs. Während wir die mathematische Logik und die numerischen Werte des ursprünglichen GSM8K-Testdatensatzes beibehalten, haben wir kulturelle Elemente wie Personennamen, Lebensmittel, Ortsnamen usw. angepasst. Diese kulturell angepassten Datensätze bieten einen zuverlässigeren Rahmen für die Bewertung des mathematischen Denkens von LLMs unter sich ändernden kulturellen Kontexten. Unsere Ergebnisse zeigen, dass LLMs mit mathematischen Problemen zu kämpfen haben, wenn sich die kulturellen Bezüge ändern, obwohl die zugrunde liegende mathematische Struktur konstant bleibt. Kleinere Modelle weisen größere Leistungseinbußen im Vergleich zu größeren Modellen auf. Interessanterweise deuten unsere Ergebnisse auch darauf hin, dass kulturelle Vertrautheit das mathematische Denken verbessern kann. Selbst Modelle ohne explizites mathematisches Training, aber mit Exposition gegenüber relevanten kulturellen Kontexten, übertreffen manchmal größere, mathematisch versierte Modelle bei kulturell eingebetteten mathematischen Problemen. Diese Studie unterstreicht die Auswirkungen des kulturellen Kontexts auf die mathematischen Denkfähigkeiten von LLMs und betont die Notwendigkeit von diverseren und repräsentativeren Trainingsdaten, um die Robustheit in realen Anwendungen zu verbessern. Die Benchmark-Datensätze und das Skript zur Reproduktion der Ergebnisse sind verfügbar unter https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields,
particularly coding, mathematical reasoning, and logical problem solving.
However, a critical question remains: Do these mathematical reasoning abilities
persist when LLMs are presented with culturally adapted math problems?
Specifically, how do LLMs perform when faced with math problems embedded in
cultural contexts that have no significant representation in main stream
web-scale AI training data? To explore this, we generated six synthetic
cultural datasets from GSM8K, a widely used benchmark for assessing LLMs'
mathematical reasoning skills. While preserving the mathematical logic and
numerical values of the original GSM8K test set, we modify cultural elements
such as personal names, food items, place names, etc. These culturally adapted
datasets provide a more reliable framework for evaluating LLMs' mathematical
reasoning under shifting cultural contexts. Our findings reveal that LLMs
struggle with math problems when cultural references change, even though the
underlying mathematical structure remains constant. Smaller models exhibit
greater performance drops compared to larger models. Interestingly, our results
also suggest that cultural familiarity can enhance mathematical reasoning. Even
models with no explicit mathematical training but exposure to relevant cultural
contexts sometimes outperform larger, mathematically proficient models on
culturally embedded math problems. This study highlights the impact of cultural
context on the mathematical reasoning abilities of LLMs, underscoring the need
for more diverse and representative training data to improve robustness in
real-world applications. The benchmark data sets and script for reproducing the
results are available at
https://github.com/akarim23131/Lost_in_Cultural_TranslationSummary
AI-Generated Summary