ChatPaper.aiChatPaper

Denken Sie: Weniger Daten, bessere Argumentation – Neubewertung französischer LLM.

Pensez: Less Data, Better Reasoning -- Rethinking French LLM

March 17, 2025
Autoren: Huy Hoang Ha
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt. Um jedoch eine starke Leistung in spezialisierten Domänen wie mathematischem Denken und nicht-englischen Sprachen zu erreichen, ist oft ein umfangreiches Training auf massiven Datensätzen erforderlich. Dieses Papier untersucht einen kontrastierenden Ansatz: das strategische Feinabstimmen auf einem kleinen, hochwertigen, zweisprachigen (Englisch-Französisch) Datensatz, um sowohl die Denkfähigkeiten als auch die Französischkenntnisse eines großen Sprachmodells zu verbessern. Anstatt uns auf die Größe zu verlassen, untersuchen wir die Hypothese, dass gezielte Datenkuratierung und optimiertes Training eine wettbewerbsfähige oder sogar überlegene Leistung erzielen können. Wir zeigen durch gezieltes überwachtes Feinabstimmen (SFT) auf nur 2.000 sorgfältig ausgewählten Proben signifikante Verbesserungen im mathematischen Denken. Insbesondere weist Pensez 7B eine Steigerung der Genauigkeit des Basismodells um bis zu 20 % auf dem AIME25 und eine 12 %ige Steigerung auf einem französischen MATH-Level-5-Benchmark auf. Diese Ergebnisse stellen die vorherrschende Annahme in Frage, dass massive Datensätze eine Voraussetzung für eine starke Denkleistung in LLMs sind, und heben das Potenzial der strategischen Datenkuratierung und des optimierten Feinabstimmens zur Verbesserung sowohl spezialisierter Fähigkeiten als auch mehrsprachiger Kompetenzen hervor. Unsere Erkenntnisse haben Implikationen für die effiziente Entwicklung von leistungsstarken, mehrsprachigen LLMs, insbesondere in ressourcenbeschränkten Szenarien.
English
Large language models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, achieving strong performance in specialized domains like mathematical reasoning and non-English languages often requires extensive training on massive datasets. This paper investigates a contrasting approach: strategic fine-tuning on a small, high-quality, bilingual (English-French) dataset to enhance both the reasoning capabilities and French language proficiency of a large language model. Rather than relying on scale, we explore the hypothesis that targeted data curation and optimized training can achieve competitive, or even superior, performance. We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000 carefully selected samples, significant improvements in mathematical reasoning. Specifically, Pensez 7B exhibits an increase in accuracy of the base model up to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark. These results challenge the prevailing assumption that massive datasets are aprerequisite for strong reasoning performance in LLMs, highlighting the potential of strategic data curation and optimized fine-tuning for enhancing both specialized skills and multilingual capabilities. Our findings have implications for the efficient development of high-performing, multilingual LLMs, especially in resource-constrained scenarios.

Summary

AI-Generated Summary

PDF52March 19, 2025