Ежедневно отобранные исследовательские статьи по ИИ с переводами
Преодоление когнитивных ограничений человека представляет собой ключевой рубеж в обучении крупных языковых моделей (LLM). Проприетарные агентные системы, такие как DeepResearch, продемонстрировали сверхчеловеческие способности на чрезвычайно сложных тестах на поиск информации, таких как BrowseComp, что ранее было недостижимо. Мы предполагаем, что их успех обусловлен сложной схемой рассуждений, отсутствующей в моделях с открытым исходным кодом: способностью систематически снижать крайнюю неопределенность при навигации в обширных информационных ландшафтах. Основываясь на этом инсайте, мы представляем WebSailor — полную методологию посттренировки, разработанную для внедрения этой критически важной способности. Наш подход включает генерацию новых задач с высокой неопределенностью через структурированную выборку и обфускацию информации, RFT-холодный старт и эффективный алгоритм обучения агентного RL — Оптимизацию политики дублирующей выборки (DUPO). С помощью этого интегрированного конвейера WebSailor значительно превосходит все открытые агенты в сложных задачах поиска информации, достигая уровня производительности проприетарных агентов и сокращая разрыв в возможностях.
Восстановление 3D-структур с пониманием сцены на основе открытого словаря из 2D-изображений является фундаментальной, но сложной задачей. Последние достижения в этой области были реализованы за счет оптимизации для каждой сцены с использованием встроенной языковой информации. Однако такие методы сильно зависят от парадигмы реконструкции с калиброванными плотными видами, что приводит к серьезным артефактам рендеринга и неправдоподобному семантическому синтезу при ограниченном количестве доступных видов. В данной работе мы представляем новый генеративный фреймворк, названный LangScene-X, который объединяет и генерирует согласованную 3D-информацию в различных модальностях для реконструкции и понимания. Благодаря способности создавать более согласованные новые наблюдения, мы можем строить обобщаемые 3D-сцены с встроенным языком, используя только разреженные виды. В частности, мы сначала обучаем модель TriMap video diffusion, которая может генерировать внешний вид (RGB), геометрию (нормали) и семантику (карты сегментации) из разреженных входных данных через прогрессивную интеграцию знаний. Кроме того, мы предлагаем Language Quantized Compressor (LQC), обученный на больших наборах изображений, для эффективного кодирования языковых эмбеддингов, что позволяет обобщать информацию между сценами без необходимости переобучения для каждой сцены. Наконец, мы реконструируем языковые поверхностные поля, выравнивая языковую информацию на поверхности 3D-сцен, что позволяет выполнять открытые языковые запросы. Эксперименты на реальных данных демонстрируют превосходство нашего LangScene-X по сравнению с современными методами в плане качества и обобщаемости. Страница проекта: https://liuff19.github.io/LangScene-X.
Несмотря на значительный прогресс в моделях диффузии для генерации изображений из текста, достижение точного пространственного контроля над генерируемыми результатами остается сложной задачей. ControlNet решает эту проблему, вводя дополнительный модуль условной обработки, а ControlNet++ дополнительно улучшает выравнивание с помощью функции потерь на основе цикличной согласованности, применяемой только к финальным шагам денойзинга. Однако этот подход игнорирует промежуточные этапы генерации, что ограничивает его эффективность. Мы предлагаем InnerControl — стратегию обучения, которая обеспечивает пространственную согласованность на всех этапах диффузии. Наш метод обучает легковесные сверточные зонды для восстановления входных управляющих сигналов (например, границ, глубины) из промежуточных признаков UNet на каждом шаге денойзинга. Эти зонды эффективно извлекают сигналы даже из сильно зашумленных латентных представлений, что позволяет создавать псевдо-опорные управляющие данные для обучения. Минимизируя расхождение между предсказанными и целевыми условиями на протяжении всего процесса диффузии, наша функция потерь на выравнивание улучшает как точность контроля, так и качество генерации. В сочетании с проверенными методами, такими как ControlNet++, InnerControl демонстрирует наилучшие результаты для различных методов условной обработки (например, границ, глубины).
Мы представляем IntFold — управляемую базовую модель для прогнозирования как общих, так и специализированных биомолекулярных структур. IntFold демонстрирует точность прогнозирования, сопоставимую с современной моделью AlphaFold3, при этом используя улучшенный кастомный механизм внимания. Помимо стандартного прогнозирования структур, IntFold может быть адаптирована для предсказания аллостерических состояний, ограниченных структур и аффинности связывания с помощью отдельных адаптеров. Кроме того, мы представляем новый модуль оценки достоверности для определения качества докинга, что обеспечивает более детализированную оценку для сложных целей, таких как комплексы антиген-антитело. Наконец, мы делимся инсайтами, полученными в процессе обучения этой вычислительно интенсивной модели.
Несмотря на критическую роль моделей вознаграждения (RMs) в обучении с подкреплением на основе человеческой обратной связи (RLHF), современные открытые модели RMs демонстрируют низкую производительность на большинстве существующих оценочных тестов, не способных охватить спектр тонких и сложных человеческих предпочтений. Даже подходы, включающие передовые методы обучения, не привели к значительному улучшению производительности. Мы предполагаем, что эта хрупкость в основном обусловлена ограничениями в наборах данных предпочтений, которые часто узко сфокусированы, синтетически размечены или не имеют строгого контроля качества. Для решения этих проблем мы представляем крупномасштабный набор данных предпочтений, состоящий из 40 миллионов пар предпочтений, под названием SynPref-40M. Чтобы обеспечить масштабируемую обработку данных, мы разработали двухэтапный конвейер синергии человека и ИИ, который использует комплементарные преимущества качества аннотаций человека и масштабируемости ИИ. В этом конвейере люди предоставляют проверенные аннотации, а крупные языковые модели выполняют автоматическую обработку на основе человеческого руководства. Обучая на этой смеси предпочтений, мы представляем Skywork-Reward-V2 — набор из восьми моделей вознаграждения, варьирующихся от 0,6 до 8 миллиардов параметров, обученных на тщательно отобранном подмножестве из 26 миллионов пар предпочтений из SynPref-40M. Мы демонстрируем, что Skywork-Reward-V2 универсален в широком спектре возможностей, включая соответствие человеческим предпочтениям, объективную правильность, безопасность, устойчивость к стилистическим предубеждениям и масштабирование best-of-N, достигая передовых результатов на семи основных тестах моделей вознаграждения. Абляционные исследования подтверждают, что эффективность нашего подхода обусловлена не только масштабом данных, но и высоким качеством их обработки. Серия Skywork-Reward-V2 представляет собой значительный прогресс в области открытых моделей вознаграждения, подчеркивая неиспользованный потенциал существующих наборов данных предпочтений и демонстрируя, как синергия обработки данных человеком и ИИ может раскрыть значительно более высокое качество данных.
Недавние достижения в области мультимодального рассуждения значительно продвинулись благодаря текстовому подходу "Цепочка мыслей" (Chain-of-Thought, CoT), где модели осуществляют рассуждения в рамках языка. Однако этот текстоцентричный подход рассматривает зрение как статичный, начальный контекст, создавая фундаментальный "семантический разрыв" между богатыми перцептивными данными и дискретным символическим мышлением. Человеческое познание часто выходит за пределы языка, используя зрение как динамический ментальный блокнот. Подобная эволюция теперь разворачивается в области ИИ, знаменуя фундаментальный сдвиг парадигмы от моделей, которые просто думают о изображениях, к тем, которые могут действительно думать с помощью изображений. Эта новая парадигма характеризуется моделями, использующими визуальную информацию в качестве промежуточных шагов в процессе мышления, превращая зрение из пассивного входа в динамическое, управляемое когнитивное пространство. В этом обзоре мы прослеживаем эту эволюцию интеллекта по траектории возрастающей когнитивной автономии, которая разворачивается в три ключевых этапа: от исследования внешних инструментов, через программное управление, к внутреннему воображению. Чтобы структурировать эту быстро развивающуюся область, наш обзор вносит четыре ключевых вклада. (1) Мы устанавливаем основные принципы парадигмы "мышления с помощью изображений" и её трёхэтапной структуры. (2) Мы предоставляем всесторонний обзор основных методов, характеризующих каждый этап этой дорожной карты. (3) Мы анализируем ключевые аспекты оценочных тестов и трансформационных приложений. (4) Мы определяем значительные вызовы и намечаем перспективные направления для будущих исследований. Предоставляя этот структурированный обзор, мы стремимся предложить чёткую дорожную карту для будущих исследований в направлении более мощного и человеко-ориентированного мультимодального ИИ.
Логические рассуждения остаются сложной задачей для больших языковых моделей (LLM), особенно в рамках логически ограниченной среды автоматического доказательства теорем (ATP), из-за редких вознаграждений и огромного масштаба доказательств. Эти трудности усиливаются в тестах, таких как PutnamBench, которые содержат университетские задачи, требующие сложного, многошагового рассуждения. Для решения этой проблемы мы представляем самоформируемые марковские процессы принятия решений с условием цели (sG-MDP) — новый подход, в котором агенты генерируют и преследуют свои подцели на основе изменяющегося состояния доказательства. Благодаря более структурированному формированию целей, результирующая задача становится более подходящей для поиска. Затем мы применяем алгоритмы, подобные поиску по дереву Монте-Карло (MCTS), для решения sG-MDP, реализуя наш подход в системе Bourbaki (7B) — модульной системе, которая может объединять несколько 7B LLM для генерации подцелей и синтеза тактик. На тесте PutnamBench Bourbaki (7B) решает 26 задач, достигая новых наилучших результатов для моделей такого масштаба.
Сложные информационные потребности в реальных сценариях поиска требуют глубокого анализа и синтеза знаний из разнообразных источников, с чем традиционные конвейеры генерации с использованием поиска (RAG) справляются недостаточно эффективно. Современные подходы, основанные на рассуждениях, сталкиваются с фундаментальным ограничением: они используют одну модель как для высокоуровневого планирования, так и для детального выполнения, что приводит к неэффективному рассуждению и ограниченной масштабируемости. В данной работе мы представляем HiRA — иерархическую структуру, которая разделяет стратегическое планирование и специализированное выполнение. Наш подход разбивает сложные поисковые задачи на узконаправленные подзадачи, назначает каждую подзадачу специализированным агентам, оснащенным внешними инструментами и возможностями для рассуждений, и координирует результаты через структурированный механизм интеграции. Такое разделение предотвращает влияние деталей выполнения на высокоуровневое рассуждение, одновременно позволяя системе использовать специализированные знания для различных типов обработки информации. Эксперименты на четырех сложных кросс-модальных бенчмарках для глубокого поиска демонстрируют, что HiRA значительно превосходит современные системы на основе RAG и агентов. Наши результаты показывают улучшения как в качестве ответов, так и в эффективности системы, подчеркивая эффективность разделенного планирования и выполнения для многошаговых задач поиска информации. Наш код доступен по адресу https://github.com/ignorejjj/HiRA.
Недавние исследования показали, что ошибка обучения масштабируется по степенному закону как с размером модели, так и с количеством токенов, и что достижение оптимальных по вычислительным ресурсам моделей требует совместного масштабирования размера модели и количества токенов. Однако эти законы масштабирования предполагают бесконечный объем данных и применимы в основном в условиях, ограниченных вычислительными ресурсами. Поскольку современные крупные языковые модели всё больше полагаются на огромные наборы данных интернет-масштаба, предположение о том, что они ограничены вычислительными ресурсами, становится менее справедливым. Этот сдвиг подчеркивает необходимость в архитектурах, которые уделяют приоритетное внимание эффективности использования токенов. В данной работе мы исследуем использование 2-симплициального Transformer — архитектуры, которая обобщает стандартное скалярное произведение внимания на трилинейные функции с помощью эффективной реализации ядра Triton. Мы демонстрируем, что 2-симплициальный Transformer достигает лучшей эффективности использования токенов по сравнению со стандартными Transformer: при фиксированном бюджете токенов модели аналогичного размера превосходят свои аналоги с использованием скалярного произведения в задачах, связанных с математикой, программированием, рассуждениями и логикой. Мы количественно оцениваем эти преимущества, показывая, что 2-симплициальное внимание изменяет показатель в законах масштабирования для задач, связанных с знаниями и рассуждениями, по сравнению со скалярным произведением внимания.
Рецензирование является основополагающим элементом научных исследований, однако растущий объем публикаций усугубляет сложности этого процесса, требующего высокой экспертизы. Хотя крупные языковые модели (LLM) демонстрируют потенциал в решении различных научных задач, их способность помогать в рецензировании, особенно в выявлении ограничений статей, остается недостаточно изученной. Мы представляем всеобъемлющую таксономию типов ограничений в научных исследованиях, сфокусированную на области искусственного интеллекта. Руководствуясь этой таксономией, для изучения ограничений мы предлагаем LimitGen — первый комплексный бенчмарк для оценки способности LLM поддерживать раннюю обратную связь и дополнять человеческое рецензирование. Наш бенчмарк состоит из двух подмножеств: LimitGen-Syn, синтетического набора данных, тщательно созданного путем контролируемых изменений высококачественных статей, и LimitGen-Human, коллекции реальных ограничений, написанных людьми. Для улучшения способности систем на основе LLM выявлять ограничения мы дополняем их функцией поиска литературы, что необходимо для обоснования выявленных ограничений на основе предыдущих научных результатов. Наш подход расширяет возможности систем LLM в генерации ограничений для научных статей, позволяя им предоставлять более конкретную и конструктивную обратную связь.
Тонкая настройка с учителем (SFT) широко используется для адаптации больших языковых моделей (LLM) к задачам извлечения информации (IE), таким как распознавание именованных сущностей (NER). Однако аннотирование таких детализированных меток и обучение моделей для конкретных доменов является затратным. Существующие работы обычно обучают унифицированную модель для нескольких доменов, но такие подходы не обладают адаптивностью и масштабируемостью, поскольку не все обучающие данные полезны для целевых доменов, а масштабирование обученных моделей остается сложной задачей. Мы предлагаем фреймворк SaM, который динамически выбирает и объединяет экспертные модели на этапе вывода. В частности, для целевого домена мы выбираем доменно-специфических экспертов, предварительно обученных на существующих доменах, на основе (i) сходства доменов с целевым доменом и (ii) производительности на выборочных примерах соответственно. Затем эксперты объединяются для создания моделей, оптимизированных для целевого домена. Благодаря динамическому объединению экспертов, полезных для целевых доменов, мы улучшаем обобщение для различных доменов без дополнительного обучения. Кроме того, эксперты могут быть легко добавлены или удалены, что обеспечивает высокую масштабируемость. Многочисленные эксперименты на нескольких бенчмарках демонстрируют эффективность нашего фреймворка, который превосходит унифицированную модель в среднем на 10%. Мы также предоставляем инсайты о потенциальных улучшениях, практическом опыте и расширениях нашего фреймворка.
Хотя крупные языковые модели (LLM) стали революционными, они всё ещё допускают ошибки и могут исследовать непродуктивные пути рассуждений. Самокоррекция — это важная способность для надежной LLM, особенно для авторегрессионной модели. Хотя LLM могут выявлять ошибки во входных данных пользователя, они демонстрируют систематическую "слепую зону самокоррекции" — неспособность исправлять идентичные ошибки в своих собственных выводах. Для систематического изучения этого явления мы представляем Self-Correction Bench — систематическую структуру для измерения этого феномена через контролируемое внедрение ошибок на трёх уровнях сложности. Протестировав 14 моделей, мы обнаружили средний показатель слепой зоны в 64,5%. Мы находим множество свидетельств того, что это ограничение связано с составом обучающих данных: демонстрации, созданные людьми, преимущественно показывают безошибочные ответы, а не последовательности исправления ошибок, в отличие от моделей, обученных с подкреплением, которые учатся исправлять ошибки через обратную связь по результатам. Примечательно, что простое добавление слова "Подождите" снижает слепые зоны на 89,3%, что указывает на существование этой способности, но требующей активации. Наша работа подчеркивает критическое ограничение современных LLM и предлагает потенциальные пути для повышения их надежности и доверия.
Методы вычислений во время вывода, аналогичные человеческому Системному Мышлению 2 (System 2 Thinking), в последнее время стали популярными для улучшения производительности моделей. Однако большинство существующих подходов страдают от нескольких ограничений: они специфичны для определённых модальностей (например, работают только с текстом), проблемно-ориентированы (например, проверяемые области, такие как математика и программирование) или требуют дополнительного обучения/надзора поверх неконтролируемого предобучения (например, верификаторы или проверяемые награды). В данной статье мы задаёмся вопросом: «Возможно ли обобщить эти подходы Системного Мышления 2 и разработать модели, которые учатся мыслить исключительно на основе неконтролируемого обучения?» Интересно, что мы находим положительный ответ на этот вопрос, обучая модели явно проверять совместимость между входными данными и кандидатами-предсказаниями, а затем переформулируя задачи предсказания как оптимизацию относительно этого верификатора. В частности, мы обучаем Энергетические Трансформеры (Energy-Based Transformers, EBTs) — новый класс энергетических моделей (Energy-Based Models, EBMs), — которые присваивают значение энергии каждой паре входных данных и кандидата-предсказания, что позволяет выполнять предсказания через минимизацию энергии на основе градиентного спуска до сходимости. Как в дискретных (текстовых), так и в непрерывных (визуальных) модальностях мы обнаруживаем, что EBTs масштабируются быстрее, чем доминирующий подход Transformer++, достигая до 35% более высокой скорости масштабирования относительно данных, размера батча, параметров, FLOPs и глубины. Во время вывода EBTs улучшают производительность с использованием Системного Мышления 2 на 29% больше, чем Transformer++ в языковых задачах, а также превосходят Diffusion Transformers в задаче удаления шума с изображений, используя меньше прямых проходов. Кроме того, мы обнаруживаем, что EBTs достигают лучших результатов, чем существующие модели, на большинстве задач при одинаковом или худшем качестве предобучения, что свидетельствует о лучшей обобщающей способности EBTs по сравнению с существующими подходами. Следовательно, EBTs представляют собой перспективную новую парадигму для масштабирования как обучающих, так и мыслительных способностей моделей.
Обучение с подкреплением (RL) стало ключевой технологией на этапе пост-обучения крупных языковых моделей (LLM). Традиционные RL-фреймворки, интегрированные с задачами, сталкиваются с серьезными ограничениями масштабируемости, в то время как RL-фреймворки с разделением задач испытывают трудности с обработкой сложных потоков данных, что приводит к простою ресурсов и дисбалансу нагрузки. Кроме того, большинство существующих фреймворков тесно связаны с движками обучения или вывода LLM, что затрудняет поддержку пользовательских решений. Для решения этих проблем мы предлагаем AsyncFlow — асинхронный потоковый RL-фреймворк для эффективного пост-обучения. В частности, мы представляем модуль распределенного хранения и передачи данных, который обеспечивает унифицированное управление данными и детализированное планирование в полностью потоковом режиме. Эта архитектура естественным образом способствует автоматическому перекрытию конвейеров между RL-задачами и динамическому балансированию нагрузки. Кроме того, мы предлагаем асинхронный механизм работы на основе модели производитель-потребитель, который минимизирует простой вычислений за счет стратегического откладывания процесса обновления параметров в пределах допустимых задержек. Наконец, ключевые возможности AsyncFlow архитектурно отделены от базовых движков обучения и вывода и инкапсулированы через сервисно-ориентированные интерфейсы, обеспечивая модульный и настраиваемый пользовательский опыт. Эксперименты демонстрируют среднее увеличение пропускной способности в 1,59 раза по сравнению с современными базовыми решениями. Представленная архитектура предоставляет практические рекомендации для проектирования RL-систем следующего поколения.
Линейные механизмы внимания предоставляют значительные преимущества для крупных языковых моделей (LLMs), обеспечивая линейную вычислительную сложность, что позволяет эффективно обрабатывать сверхдлинные последовательности (например, контекст длиной 1 млн). Однако существующие методы параллелизма последовательностей (Sequence Parallelism, SP), необходимые для распределения этих задач между устройствами, становятся основным узким местом из-за значительных накладных расходов на коммуникацию. В данной работе мы представляем ZeCO (Zero Communication Overhead) — новый метод SP для моделей с линейным вниманием, разработанный для преодоления этих ограничений и достижения сквозной почти линейной масштабируемости при обучении на длинных последовательностях. Например, обучение модели с длиной последовательности 1 млн на 64 устройствах с использованием ZeCO занимает примерно столько же времени, сколько обучение с последовательностью длиной 16 тыс. на одном устройстве. В основе ZeCO лежит All-Scan — новый примитив коллективной коммуникации. All-Scan предоставляет каждому рангу SP именно то начальное состояние оператора, которое ему требуется, при этом минимизируя объем коммуникации, что эффективно устраняет накладные расходы на передачу данных. Теоретически мы доказываем оптимальность ZeCO, показывая, что он вносит лишь незначительные накладные расходы по времени и памяти. Эмпирически мы сравниваем затраты на коммуникацию различных стратегий SP и демонстрируем, что All-Scan обеспечивает самую быструю коммуникацию в сценариях SP. В частности, на 256 GPU с длиной последовательности 8 млн ZeCO достигает ускорения на 60% по сравнению с текущим передовым методом SP. Мы считаем, что ZeCO открывает четкий путь к эффективному обучению LLMs следующего поколения на ранее недоступных длинах последовательностей.