ChatPaper.aiChatPaper

Persi nella traduzione culturale: i modelli linguistici faticano con la matematica nei diversi contesti culturali?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

March 23, 2025
Autori: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi in vari campi, in particolare nella programmazione, nel ragionamento matematico e nella risoluzione di problemi logici. Tuttavia, rimane una domanda cruciale: queste capacità di ragionamento matematico persistono quando gli LLM vengono presentati con problemi matematici adattati culturalmente? Nello specifico, come si comportano gli LLM di fronte a problemi matematici inseriti in contesti culturali che non hanno una rappresentazione significativa nei dati di addestramento su larga scala utilizzati per l'IA? Per esplorare questa questione, abbiamo generato sei dataset culturali sintetici a partire da GSM8K, un benchmark ampiamente utilizzato per valutare le capacità di ragionamento matematico degli LLM. Pur mantenendo la logica matematica e i valori numerici del set di test originale di GSM8K, abbiamo modificato elementi culturali come nomi di persona, alimenti, nomi di luoghi, ecc. Questi dataset adattati culturalmente forniscono un quadro più affidabile per valutare il ragionamento matematico degli LLM in contesti culturali variabili. I nostri risultati rivelano che gli LLM faticano a risolvere problemi matematici quando i riferimenti culturali cambiano, nonostante la struttura matematica sottostante rimanga invariata. I modelli più piccoli mostrano cali di prestazione maggiori rispetto ai modelli più grandi. È interessante notare che i nostri risultati suggeriscono anche che la familiarità culturale può migliorare il ragionamento matematico. Anche modelli senza un addestramento matematico esplicito ma con esposizione a contesti culturali rilevanti a volte superano modelli più grandi e matematicamente competenti in problemi matematici inseriti in contesti culturali. Questo studio evidenzia l'impatto del contesto culturale sulle capacità di ragionamento matematico degli LLM, sottolineando la necessità di dati di addestramento più diversificati e rappresentativi per migliorare la robustezza nelle applicazioni del mondo reale. I dataset di benchmark e lo script per riprodurre i risultati sono disponibili all'indirizzo https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Summary

AI-Generated Summary

PDF62March 25, 2025