SoS1: Модели O1 и R1-Like Reasoning LLM являются решателями метода сумм квадратов.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Авторы: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли уровня, сопоставимого с человеческим, в решении разнообразных задач, однако их способность выполнять строгие математические вычисления остается открытой проблемой. В данной работе мы исследуем фундаментальную, но вычислительно сложную задачу: определение неотрицательности заданного многомерного полинома. Эта задача, тесно связанная с семнадцатой проблемой Гильберта, играет ключевую роль в глобальной оптимизации полиномов и имеет приложения в различных областях. Сначала мы представляем SoS-1K — тщательно отобранный набор данных, содержащий около 1000 полиномов, а также экспертно разработанные инструкции для рассуждений, основанные на пяти постепенно усложняющихся критериях. Оценивая несколько современных LLM, мы обнаруживаем, что без структурированного руководства все модели показывают результат лишь немного выше базового уровня случайного угадывания в 50%. Однако высококачественные инструкции для рассуждений значительно повышают точность, увеличивая производительность до 81%. Более того, наша модель SoS-7B, дообученная на SoS-1K всего за 4 часа, превосходит по точности 671B DeepSeek-V3 и GPT-4o-mini, при этом требуя лишь 1,8% и 5% от времени вычислений, необходимого для этих моделей, соответственно. Наши результаты подчеркивают потенциал LLM для расширения границ математических рассуждений и решения NP-трудных задач.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary