ChatPaper.aiChatPaper

Общее рассуждение требует обучения рассуждать с самого начала.

General Reasoning Requires Learning to Reason from the Get-go

February 26, 2025
Авторы: Seungwook Han, Jyothish Pari, Samuel J. Gershman, Pulkit Agrawal
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющую практическую полезность, воплощая искусственный полезный интеллект (AUI). Однако их способность к адаптивному и устойчивому рассуждению — ключевым характеристикам искусственного общего интеллекта (AGI) — остается ограниченной. Хотя LLM, казалось бы, успешно справляются с задачами здравого смысла, программирования и математики, они испытывают трудности с обобщением алгоритмического понимания в новых контекстах. Наши эксперименты с алгоритмическими задачами на эзотерических языках программирования показывают, что рассуждения LLM переобучаются на тренировочных данных и обладают ограниченной переносимостью. Мы предполагаем, что основная проблема, лежащая в основе такой ограниченной переносимости, заключается в тесной связи рассуждений и знаний в LLM. Для перехода от AUI к AGI мы предлагаем разделить знания и рассуждения через три ключевых направления: (1) предварительное обучение рассуждениям с использованием обучения с подкреплением (RL) с нуля как альтернативу широко используемому предобучению на предсказании следующего токена, (2) использование учебного плана из синтетических задач для облегчения изучения априорного распределения рассуждений для RL, которое затем может быть перенесено на задачи обработки естественного языка, и (3) обучение более обобщаемым функциям рассуждений с использованием небольшого контекстного окна для снижения эксплуатации ложных корреляций между токенами. Такая система рассуждений, объединенная с обученной системой извлечения информации и большой внешней памятью в качестве хранилища знаний, может преодолеть ряд ограничений существующих архитектур в обучении рассуждениям в новых сценариях.
English
Large Language Models (LLMs) have demonstrated impressive real-world utility, exemplifying artificial useful intelligence (AUI). However, their ability to reason adaptively and robustly -- the hallmarks of artificial general intelligence (AGI) -- remains fragile. While LLMs seemingly succeed in commonsense reasoning, programming, and mathematics, they struggle to generalize algorithmic understanding across novel contexts. Our experiments with algorithmic tasks in esoteric programming languages reveal that LLM's reasoning overfits to the training data and is limited in its transferability. We hypothesize that the core issue underlying such limited transferability is the coupling of reasoning and knowledge in LLMs. To transition from AUI to AGI, we propose disentangling knowledge and reasoning through three key directions: (1) pretaining to reason using RL from scratch as an alternative to the widely used next-token prediction pretraining, (2) using a curriculum of synthetic tasks to ease the learning of a reasoning prior for RL that can then be transferred to natural language tasks, and (3) learning more generalizable reasoning functions using a small context window to reduce exploiting spurious correlations between tokens. Such a reasoning system coupled with a trained retrieval system and a large external memory bank as a knowledge store can overcome several limitations of existing architectures at learning to reason in novel scenarios.

Summary

AI-Generated Summary

PDF42March 4, 2025