Ежедневно отобранные исследовательские статьи по ИИ с переводами
LLM-агенты всё чаще работают в крупных экосистемах инструментов, где задачи реального мира требуют поиска релевантных инструментов, вывода неявных подцелей и адаптации к динамичным условиям на длительных горизонтах. Однако существующие бенчмарки редко оценивают планирование в условиях ограниченной видимости инструментов при поиске. Для устранения этого пробела мы представляем PlanBench-XL — интерактивный бенчмарк, включающий 327 задач розничной торговли с использованием 1,665 инструментов, который проверяет, способны ли агенты итеративно извлекать пригодные инструменты, вызывать их для получения промежуточных свидетельств, необходимых для последующих вызовов на пути к конечной цели. PlanBench-XL дополнительно оснащён опциональным механизмом блокировки, моделирующим непредсказуемость реального мира через отсутствующие, сбойные или отвлекающие функции инструментов, вынуждая агентов обнаруживать нарушенные пути и адаптироваться во время выполнения. Эксперименты с десятью ведущими LLM показывают, что планирование с большим множеством инструментов остаётся сложной задачей: хотя GPT-5.4 достигает 51,90% точности в условиях без блокировок, при наиболее жёстком сценарии блокировки его точность падает до 11,36%. Дальнейший анализ показывает, что агенты особенно уязвимы, когда сбои не сопровождаются явными сигналами об ошибках или когда для восстановления требуются более длинные альтернативные цепочки использования инструментов. Эти результаты утверждают PlanBench-XL в качестве испытательного полигона для диагностики сбоев в планировании агентов и подчёркивают необходимость в надёжном адаптивном планировании при решении долгосрочных задач в обширных неидеальных средах инструментов.
Современные агентные системы часто страдают от фрагментированного состояния выполнения: транскрипты, эффекты инструментов, события памяти, размещение рабочей области, происхождение ветвей и доказательства воспроизведения записываются отдельно, что затрудняет их проверку или воспроизведение. OpenRath решает эту проблему с помощью модели программирования, подобной PyTorch, для многоагентных систем с несколькими сессиями. Аналогия касается роли центральной абстракции времени выполнения как первостепенного элемента, а не тензорных вычислений. Её ключевой абстракцией является Session — значение времени выполнения, передаваемое между агентами и рабочими процессами. Session может быть разветвлена, проверена, воспроизведена, осведомлена о бэкенде и компонуема. Она записывает фрагменты беседы, размещение песочницы, метаданные происхождения, использование токенов, ожидающие работы и доказательства инструментов, а также определяет, где взаимодействия с памятью входят в запись выполнения. Поскольку это состояние переносится тем же значением, которое используется при выполнении программы, ветвление, слияние и воспроизведение становятся явными операциями выполнения, а не состояниями, восстановленными из внешних следов. OpenRath также определяет Sandbox, Tool, Agent, Memory, Workflow и Selector, причём Selector превращает поток управления в решения, маршрутизируемые во время выполнения. В данном отчёте представлены модель программирования, архитектура, проверенные этапы и протокол доказательств. Утверждения ограничиваются контролируемыми свойствами выполнения, тогда как широкие количественные сравнения, качество живого провайдера, доступность опционального бэкенда и качество памяти оставляются для последующей оценки. Центральный тезис заключается в том, что Session предоставляет агентным системам первостепенное значение времени выполнения для аудируемой композиции.
Массивные неструктурированные мультимодальные потоки страдают от высокой «энтропии данных», препятствующей как эффективному усвоению знаний человеком, так и высококачественному пост-обучению ИИ. Существующие пассивные парадигмы аннотации, в значительной степени опирающиеся на эвристические правила или общие VLM, являются дорогостоящими, монотонными и не позволяют раскрыть глубинную процедурную логику, заложенную в необработанных данных. Мы возводим обработку данных в ранг обучаемой способности, предлагая смену парадигмы в сторону Агентной Адаптации Данных (Agentic Data Tailoring), которая активно уточняет и структурирует данные для согласования с разнообразными намерениями пользователей и нижестоящих задач. Чтобы преодолеть узкое место дефицита данных при обучении таких высокоуровневых способностей, мы разрабатываем двухэтапный конвейер, обосновывающий генеративный семантический синтез в детерминированных Фактических Якорях (Factual Anchors), что позволяет получить крупномасштабный набор данных, охватывающий пять ключевых физических и цифровых доменов. На этой основе модель DataClaw_0.9B синергетически использует Контролируемую Тонкую Настройку (SFT) и Оптимизацию Групповой Относительной Политики (GRPO), достигая надежного согласования со сложными намерениями по уточнению и адаптации. Для систематической количественной оценки этой способности мы создаем DataClaw_0-val — первый бенчмарк, посвященный уточнению данных. Ключевым моментом является использование нижестоящего пост-обучения в качестве окончательного критерия валидации. Оценки на генерации видео, VQA реального мира и навигации по GUI подтверждают, что DataClaw_0 поставляет адаптированные данные с высокой информационной плотностью, способствуя эффективной адаптации модели к новым задачам в условиях ограниченного объема обучающих данных. Страница проекта: https://czjdsg.github.io/MakeAnyData
Агенты предприятий все чаще работают внутри рабочих пространств: они читают разнородные файлы, вызывают инструменты и предоставляют бизнес-артефакты. Мы представляем EnterpriseClawBench — эталон для тестирования агентов предприятий, построенный на проприетарных сессиях агентов из реального мира. Исходя из большого архива рабочих сессий, EnterpriseClawBench создает 852 воспроизводимых задания, каждое из которых снабжено восстановленными фикстурами, переписанными промптами, классами ролей, подклассами навыков, жесткими правилами и семантическими рубриками. Поскольку сессии содержат внутренний контент предприятий, мы не публикуем данные бенчмарка; вместо этого наш воспроизводимый вклад заключается в протоколе построения и оценки. На EnterpriseClawBench наилучшая конфигурация достигает только 0.663 (Codex с GPT-5.5). Эти результаты показывают, что оценка агентов предприятий должна сообщать комбинации харнеса и модели, доставку артефактов, визуальное качество, стоимость, время выполнения и поведение при переносе навыков, а не сводить производительность к единому показателю. Код: https://github.com/FrontisAI/EnterpriseClawBench
Самовнимание лежит в основе производительности трансформеров и зачастую является самой дорогостоящей частью трансформера при работе с длинными контекстами, поскольку его попарные взаимодействия токенов масштабируются квадратично относительно длины последовательности. Стандартное плотное внимание также применяет один и тот же набор голов внимания к каждому токену независимо от его сложности или информационного содержания. Такая универсальная активация может приводить к нерациональному расходованию вычислительных ресурсов, особенно по мере удлинения последовательностей и быстрого роста затрат на внимание. Мы предлагаем Grouped Query Experts (GQE) — слой смеси экспертов поверх группированного внимания по запросам (GQA). Внутри каждой группы GQA маршрутизатор выбирает k экспертов голов запросов для каждого токена, в то время как все головы «ключ-значение» (KV) остаются плотными и неизменными. Таким образом, GQE сохраняет преимущества GQA в виде кэша KV и сокращает только вычисления активных голов запросов. При фиксированном бюджете в 30 миллиардов токенов для модели с 250 миллионами параметров GQE достигает точности итоговой задачи, сопоставимой с базовым вариантом GQA с полной активацией, при этом активируя лишь половину голов запросов на токен.
По мере масштабирования систем поиска высокое качество реранжирования становится всё более важным. Однако большинство существующих реранкеров, как на основе энкодеров, так и на основе декодеров, совместно кодируют запрос и пассаж, тесно связывая их вычисления и ограничивая эффективность развертывания и гибкость. Мы представляем KaLM-Reranker-V1 — быстрый, но не с поздним взаимодействием (FBNL) реранкер, который разделяет вычисления запроса и пассажа, сохраняя при этом выразительное моделирование релевантности. Построенный на архитектуре энкодер-декодер, KaLM-Reranker-V1 использует энкодер для предварительного кодирования пассажей с помощью пулинга эмбеддингов Matryoshka, в то время как декодер моделирует системную инструкцию, пользовательскую инструкцию и намерение запроса; затем перекрестное внимание определяет релевантность между контекстом запроса и представлениями пассажей. Такая конструкция делает KaLM-Reranker-V1 эффективным за счет раздельного кодирования пассажей, но при этом не является поздним взаимодействием, сохраняя богатое моделирование релевантности через перекрестное внимание. Мы реализовали KaLM-Reranker-V1 в трех размерах: Nano, Small и Large, с 0,27 млрд, 1 млрд и 4 млрд активируемых параметров соответственно. Обширные эксперименты на BEIR, MIRACL и LMEB показывают, что KaLM-Reranker-V1 достигает высокой производительности реранжирования с превосходной эффективностью. На BEIR KaLM-Reranker-V1 демонстрирует передовые результаты, наравне с такими сильными промышленными моделями, как серия Qwen3-Reranker; на MIRACL, несмотря на отсутствие обширного обучения на многоязычных данных, KaLM-Reranker-V1 по-прежнему показывает отличные результаты реранжирования. Более того, на LMEB модели реранжирования демонстрируют явное преимущество, и даже модель Nano с 0,27 млрд параметров остается конкурентоспособной по сравнению с моделями эмбеддингов размером 7–12 млрд параметров.
Модели мировых действий (World Action Models, WAMs) представляют собой воплощённые модели предсказательных действий, которые формируют прогноз будущего, доступный для реализации действий. Современные WAMs адаптируют крупные модели генерации видео, а параллельное направление опирается на языковые или визуально-языковые основы (backbones) без использования генерации видео в качестве ядра. Стремительное развитие этой области размыло границы между широкими мировыми моделями, моделями генерации видео, видеомировыми моделями, основанными на действиях (action-grounded video world models), политиками «Видение–Язык–Действие» (Vision-Language-Action policies) и собственно WAMs. Настоящий обзор даёт единое описание этой области. В нём сначала проясняются указанные границы, а затем существующие работы систематизируются с помощью двух взаимодополняющих подходов. Первый подход выясняет, что именно требуется генерировать каждому методу: визуализированные будущие состояния (rendered futures), латентные будущие состояния (latent futures) или рассуждения о действиях без генерации видео (video-generation-free action reasoning). Второй подход разлагает каждый метод по предиктивному субстрату, основе (backbone), способу сопряжения с действиями (action coupling) и режиму развёртывания (deployment regime). Такая анатомия поддерживает единое обсуждение вопросов интерактивности, причинности, персистентности, физической правдоподобности и обобщения, за которым следуют данные, методы оценки и открытые проблемы. На пересечении этих осей выявляется последовательный шаблон проектирования: WAMs — это не просто генераторы видео с «головами» действий, а методы предсказательных действий, в которых проектные решения обменивают богатство представлений на вычислительные затраты, объём памяти, задержку и стоимость меток действий. Область движется к методам, которые генерируют меньше будущего, сохраняя при этом то, что необходимо для управления. Домашняя страница обзора: https://world-action-models.github.io/.
Несмотря на то, что недавние LLM-агенты для терминала продемонстрировали многообещающие возможности, нехватка высококачественных исполняемых обучающих данных remains критическим узким местом. Существующие конвейеры синтеза обычно масштабируются путем адаптации поверхностных артефактов в задачи, что часто приводит к неоднозначным инструкциям, неглубоким путям выполнения и хрупким тестам, обеспечивающим слабые обучающие сигналы. Чтобы преодолеть это, мы представляем CLI-Universe — принципиальный движок синтеза, конструирующий задачи для терминальных агентов. CLI-Universe генерирует задачи-кандидаты путем выборки комбинаций по многомерной таксономии способностей (домен, тип навыка, умение и инженерный столп), а затем обосновывает каждую задачу с помощью поиска на основе фактических данных по реальным техническим материалам. Для обеспечения строгого контроля проверенные прототипы развертываются в Docker-средах и подвергаются многоэтапному конвейеру верификации исполняемости, включающему тестовую конструкцию на основе рубрик, фильтрацию по условию подсказок и строгую проверку перехода от неудачи к успеху. В рамках всего конвейера — от генерации кандидатов до верификации — примерно две трети кандидатов отбрасываются, сохраняются только те, которые являются подлинными, проверяемыми и нетривиально сложными. Для валидации нашего фреймворка мы создали высокодистиллированный набор данных из 6000 траекторий под названием CLI-Universe-6K. Примечательно, что дообучение Qwen3-32B на CLI-Universe-6K достигает 33.4% на Terminal-Bench 2.0. Это устанавливает новый state-of-the-art для моделей, обученных на открытых данных с размером не более 32B параметров, и превосходит несколько моделей на порядок больше, демонстрируя глубокую эффективность структурированного высокоточного синтеза данных.
Существующие модели эмбеддингов по своей природе статичны: они кодируют текстовые сегменты изолированно, игнорируя окружающий контекст и временной порядок. В данной статье представлена EvoEmbedding — новая модель эмбеддингов, которая генерирует эволюционирующие представления для поиска. Она предназначена для сценариев с длинным контекстом, где информация динамична, последовательна и требует непрерывного отслеживания состояния. Наше решение просто: EvoEmbedding поддерживает непрерывно обновляемую латентную память при последовательной обработке входных данных и использует её наряду с исходным содержимым для совместной генерации эволюционирующих эмбеддингов. Следовательно, для одного и того же запроса наша модель адаптирует свое представление для извлечения различных целей на основе эволюционирующего контекста, выходя за рамки статического семантического поиска. Чтобы наделить модель этой способностью, мы создали EvoTrain-180K — разнообразный набор данных для совместной оптимизации латентной памяти и поиска. Кроме того, мы вводим очередь памяти для предотвращения коллапса представлений при рекуррентном кодировании, а также методы сегментной пакетной обработки, которые устраняют значительную вариативность длины и ускоряют обучение в 3,8 раза. Обширные эксперименты показывают, что наша модель не только превосходит более крупные специализированные модели (например, Qwen3-Embedding-8B и KaLM-Embedding-Gemma3-12B) в ряде эталонных тестов поиска по длинному контексту, но и хорошо обобщается на последующие задачи (например, персонализацию) с контекстами, в 10 раз превышающими ее окно обучения. Примечательно, что EvoEmbedding легко интегрируется в агентные рабочие процессы для повышения производительности. Например, наивный конвейер RAG, оснащенный нашей моделью, превосходит специализированные агентные системы памяти. Страница проекта: https://clare-nie.github.io/EvoEmbedding.
Мы представляем BioMatrix — первую мультимодальную фундаментальную модель, которая нативно интегрирует последовательности, структуры и естественный язык как для молекул, так и для белков в рамках единой архитектуры, состоящей только из декодера. Существующие биологические фундаментальные модели раздельно стремятся к нативной мультимодальности и широкому охвату сущностей: те, что объединяют несколько модальностей в рамках общей задачи, ограничены одним типом сущностей, тогда как модели, охватывающие несколько типов сущностей, либо опускают явное моделирование структуры, либо полагаются на адаптерные конструкции, в которых модель не может нативно генерировать те самые модальности, которые она способна читать. BioMatrix устраняет этот разрыв, отображая молекулярные последовательности (поддерживающие нотации SMILES и SELFIES), молекулярные структуры, белковые последовательности, белковые структуры и естественный язык в общее дискретное пространство токенов с помощью унифицированной схемы токенизации — таким образом, все модальности обрабатываются и генерируются единообразно в рамках единой задачи предсказания следующего токена, без внешних кодировщиков, проекционных адаптеров или специализированных выходных головок. Построенная на основе языковой модели Qwen3 (1,7B и 4B), BioMatrix предварительно обучена на 304,4 миллиарда токенов, охватывающих общие и предметно-ориентированные тексты, представления последовательностей и структур молекул и белков, а также кросс-модальные корпуса, в которых биомолекулярные сущности переплетаются с научным текстом и связывают различные сущности через данные о взаимодействиях молекул с белками и белков друг с другом. После настройки на комплексном наборе прикладных задач, охватывающих 80 задач из 6 категорий — включая задачи понимания и генерации для одной сущности и нескольких сущностей, как внутри модальностей, так и между ними, — BioMatrix достигает лучших или конкурентоспособных результатов в 77 из 80 задач, демонстрируя, что единая, нативно мультимодальная модель-универсал способна эффективно соответствовать или превосходить специализированные подходы в широком спектре биологических задач.
Квадратичная сложность внимания создает критическое узкое место для обработки длинных контекстов, стимулируя интерес к гибридным архитектурам внимания. Большинство открытых гибридных моделей используют послойную стратегию. Однако предыдущие работы отмечали принципиальную сложность интеграции линейного внимания (LA) с полным вниманием (FA), что указывает на недостаточную изученность пространства проектирования гибридного внимания. Для исследования этого пространства мы проводим анализ интерпретируемости и обнаруживаем, что слои демонстрируют функциональное сходство на уровне блоков, в то время как отдельные головы внутри одного слоя, несмотря на общие входные признаки, проявляют отчетливую функциональную специализацию. Эта гетерогенность на уровне голов указывает на то, что размерность голов обеспечивает естественную и обоснованную степень детализации для слияния гетерогенных сигналов внимания. Основываясь на этом понимании, мы представляем HydraHead — новую архитектуру, которая гибридизирует FA и LA вдоль оси голов. HydraHead отличается двумя ключевыми инновациями: (1) стратегией отбора на основе интерпретируемости, которая идентифицирует головы, критически важные для извлечения информации, и сохраняет FA только для них, и (2) модулем слияния с нормализацией масштаба, устраняющим расхождение в распределениях выходов голов FA и LA. Используя трехэтапный конвейер переноса с повторным использованием параметров и дистилляцией, мы достигаем высокопроизводительных гибридных моделей с минимальными вычислительными затратами на обучение. В единой схеме обучения HydraHead превосходит другие гибридные конструкции в задачах с длинным контекстом, сохраняя при этом высокое качество общих рассуждений. Благодаря отбору голов на основе интерпретируемости, она достигает производительности на длинных контекстах, сопоставимой с послойным гибридом 3:1, при соотношении LA к FA 7:1. Важно, что, обученная всего на 15 миллиардах токенов, HydraHead демонстрирует улучшение более чем на 69% по сравнению с базовой моделью при длине контекста 512 000, приближаясь к Qwen3.5 — ведущей модели сопоставимого размера с родной длиной контекста 256 000. Это подчеркивает значительный потенциал масштабирования гибридизации на уровне голов.
Агенты, использующие компьютер (Computer-Use Agents, CUAs), все чаще применяются в динамических интерактивных средах, что порождает растущую потребность в непрерывном обучении навыкам в процессе взаимодействия. Современные подходы решают эту задачу путем изучения повторно используемых навыков на основе успешных траекторий. Однако такие методы обучения навыкам в значительной степени предполагают статичные и безопасные среды, игнорируя риски, связанные с adversarial-взаимодействиями (например, инъекции промптов) и динамикой окружения (например, всплывающие окна). В динамических условиях подобные допущения могут привести к рискованному обучению навыкам и хрупкому выполнению задач, подрывая надежность CUAs. Это ставит вопрос: как могут CUAs безопасно изучать и использовать навыки в динамических средах? Для решения этой проблемы мы предлагаем SkillHarness — фреймворк для безопасного извлечения навыков в динамических средах. SkillHarness выходит за рамки статичных абстракций навыков, моделируя обучение и использование навыков как процесс взаимодействия с ограничениями безопасности. В частности, мы вводим понятие границы навыка, которое использует сигналы из множества источников надзора для идентификации безопасных навыков из траекторий взаимодействия, и создаем самоулучшающиеся ограничения безопасности на протяжении всего жизненного цикла навыка. Кроме того, SkillHarness предлагает выборочное повторное использование навыков, при котором задачи направляются на декомпозицию в соответствии с контекстом и выполняются путем избирательной активации подмножеств навыков. Наши эксперименты показывают, что SkillHarness значительно снижает уровень небезопасности изученных навыков на 57,1% и последовательно повышает стабильность выполнения в условиях динамических изменений среды, превосходя существующие базовые подходы.
В авторегрессионной генерации больших языковых моделей (LLM) традиционно декодирование выполняется с последнего слоя в предположении, что более глубокие представления обеспечивают более надежные предсказания следующего токена. Мы пересматриваем это предположение, выявляя повторяющуюся динамику «угадывание–уточнение–возмущение»: ранние слои формируют грубые догадки, промежуточные слои уточняют семантику, релевантную для рассуждений, а последние слои могут возмущать эти уточненные предсказания в сторону общих токенов или токенов, предпочитаемых при выравнивании. Мы представляем уверенное декодирование (Confident Decoding) — стратегию декодирования без обучения, которая динамически выбирает наиболее надежный слой, близкий к последнему, с помощью энтропийно-управляемого консервативного обратного поиска. Кроме того, мы даем теоретическую формулировку выбора слоя как задачи оптимальной остановки, показывая, что при ограниченном проекционном шуме и доминирующем возмущении выравнивания на поздних этапах наше правило поиска фильтрует возмущение, ограничивая потери относительно оракульного слоя уточнения. Эксперименты на плотных и смешанно-экспертных LLM демонстрируют последовательный прирост в сложных бенчмарках рассуждений, включая GPQA-Diamond, Omni-MATH и HLE, с нулевыми дополнительными затратами памяти и увеличением задержки менее чем на 2%. Эти результаты указывают на то, что динамическое обход возмущений последнего слоя может раскрыть более сильное поведение при рассуждениях у выровненных LLM.
Самодистилляция улучшает рассуждения в больших языковых моделях за счёт использования собственных прогонов модели в качестве обучающего сигнала, обычно посредством имплицитного выравнивания на уровне логитов, минимизирующего дивергенцию Кульбака–Лейблера относительно привилегированного целевого распределения. Однако, поскольку такое наблюдение генерируется с помощью неконтролируемой выборки, оно не даёт диагностического понимания конкретных ошибок модели или корректирующих указаний для её индивидуальных паттернов сбоев. В результате модель учится имитировать привилегированное распределение, вместо того чтобы получать тонкозернистые коррекции, указывающие, где и почему её рассуждения терпят неудачу. В этой статье мы предлагаем оптимизацию политики с дополнением траекториями (TAPO), которая переводит самодистилляцию от имплицитного выравнивания распределений к эксплицитному построению траекторий. Во время RL-обучения модель генерирует как правильные, так и неправильные прогоны для одного и того же запроса, и TAPO использует эту контрастную структуру для построения микрорефлексивных коррекций — новых обучающих траекторий, которые сохраняют ошибочные рассуждения модели до момента сбоя, а затем вставляют диагностику на естественном языке и исправленные рассуждения, направляемые правильным эталоном из той же группы выборки. Поскольку каждая траектория привязана к собственному префиксу и решениям обучающегося, корректирующий сигнал в большей степени сохраняет распределение, соответствующее текущей политике модели, чем по-позиционное выравнивание, накладываемое KL-методами. Для интеграции этих траекторий TAPO вводит отбор кандидатов с учётом сложности на границе возможностей модели и разделённую оценку преимущества, предотвращающую загрязнение градиента. Эксперименты на AIME 2024, AIME 2025 и HMMT 2025 показывают, что TAPO достигает устойчивых улучшений по сравнению с GRPO при одинаковом количестве шагов обучения. Дополнительный анализ демонстрирует, что TAPO усиливает как рассуждения первого прохода, так и эффективность исправления ошибок.
В последнее время сквозные модели OCR, ярким примером которых является DeepSeek OCR, снова привлекли внимание к этой области. Широко распространено мнение, что использование большой языковой модели (LLM) в качестве декодера позволяет модели задействовать априорное распределение языка, что приводит к улучшению производительности OCR. Однако обратная сторона также очевидна: по мере увеличения длины выходной последовательности накопленный KV-кэш повышает потребление памяти и постепенно замедляет генерацию. Это резко контрастирует с поведением человека, у которого эффективность при выполнении длительных задач копирования не снижается. В данном техническом отчете мы представляем Unlimited OCR — модель, разработанную для имитации рабочей памяти человека при разборе. Взяв DeepSeek OCR в качестве базовой модели, мы заменяем все слои внимания в декодере на предложенное нами скользящее оконное внимание с эталоном (Reference Sliding Window Attention, R-SWA), которое снижает вычислительные затраты на внимание, поддерживая при этом постоянный KV-кэш на протяжении всего процесса декодирования. Благодаря сочетанию высокой степени сжатия энкодера DeepSeek OCR с нашей конструкцией постоянного KV-кэша, Unlimited OCR может расшифровывать десятки страниц документов за один прямой проход при стандартной максимальной длине в 32K. Более того, R-SWA является универсальным механизмом внимания для разбора — помимо OCR, он столь же применим к таким задачам, как ASR, перевод и т.д. Код и веса модели доступны по адресу http://github.com/baidu/Unlimited-OCR.
Глубокие исследовательские агенты — это системы на основе больших языковых моделей (LLM), предназначенные для автономного многошагового научного рассуждения, и они обладают огромным потенциалом для ускорения исследований в области физических наук. Однако всесторонние и углублённые оценки их возможностей в данной области остаются недостаточными. Для устранения этого пробела мы представляем PhySciBench — эталонный тест, высокорелевантный исследованиям в физических науках, включающий 200 вопросов, отобранных экспертами и сбалансированных между физикой и химией, по шести категориям задач, отражающим реальные научные рабочие процессы. Оценка современных моделей и агентных систем на PhySciBench показала ограниченную производительность; даже самый сильный базовый подход, Gemini Deep Research, достигает точности лишь 33,5%. Анализ случаев неудач выявил три повторяющихся недостатка: хрупкость в длинных цепочках рассуждений, ограниченный перенос знаний между шагами и отсутствие самопроверки, основанной на физических принципах. Руководствуясь этими результатами, мы разработали DelveAgent — модульную мультиагентную структуру, оснащённую адаптивным циклом планирования, памятью двойной гранулярности и иерархическим механизмом рефлексии, основанным на физике. На четырёх научных эталонных тестах DelveAgent повышает точность до 7,5 процентных пунктов, одновременно снижая затраты на логический вывод примерно до одной трети от самого сильного базового подхода. Эти результаты подтверждают значимость PhySciBench как критически важного эталонного теста для оценки систем ИИ в физических науках и демонстрируют, что архитектурная специализация может эффективно повысить надёжность автономных научных исследований.
Задачи с длительным горизонтом распространены в реальных робототехнических применениях, однако обнаружение сбоев для таких задач остается недостаточно изученным. Обнаружение сбоев в робототехнических задачах с длительным горизонтом особенно сложно, поскольку начало сбоя часто неоднозначно, а плотные временные аннотации обычно недоступны. Мы представляем Foresight — систему обнаружения сбоев, которая отслеживает траектории манипуляции, используя латентные представления из обусловленной действиями модели мира. Foresight обучается с использованием только конечных меток успеха или сбоя на уровне задачи. Используя предиктивные представления модели мира, наш метод предоставляет единую основу для обнаружения сбоев для различных стратегий. Кроме того, мы используем функциональное конформное прогнозирование (FCP) для адаптивной калибровки порогов обнаружения. Мы оцениваем Foresight с использованием современных политик «зрение-язык-действие» в симуляции на LIBERO-Long, ManiSkill-Long и BEHAVIOR-1K, сравниваем его с современными методами обнаружения сбоев и проверяем на реальных роботах с тремя задачами длительного горизонта на манипуляторе ReactorX-200 и одной задачей на манипуляторе Franka. Наши результаты показывают, что представления обусловленной действиями модели мира обеспечивают масштабируемое представление для надежного мониторинга сбоев в манипуляции с длительным горизонтом.
Длинные агентные трассы, состоящие из цепочек рассуждений и вызовов инструментов, накапливают устаревшее содержимое, которое закрепляет последующие генерации и в конечном счёте выходит за пределы контекстного окна. Существующие паллеты (scaffolds) смягчают эту проблему с помощью сжатия с фиксированным интервалом, активируемым по достижении порога числа токенов. Такие триггеры не учитывают структуру траектории, что приводит к риску отбрасывания частичных результатов на середине вывода или поиска. Мы предлагаем SelfCompact — палету, позволяющую самой модели решать, когда и как выполнять сжатие. В частности, она объединяет два элемента вывода во время инференса: (i) инструмент сжатия, который модель вызывает для обобщения накопленного контекста, и (ii) лёгкую рубрику, определяющую, когда срабатывать (подзадача решена, или траектория сходится), а когда подавлять (на середине вывода, или при застревании). Необходимы оба элемента. Инструмент сам по себе используется неравномерно в моделях с открытыми весами, часто вызывается в неподходящие моменты или не вызывается вовсе; одна рубрика неспособна действовать. Вместе они вызывают эффективное адаптивное сжатие без какого-либо дообучения или внешнего контроля. Мы приводим эмпирические результаты на шести бенчмарках (конкурентная математика и агентный поиск) и семи моделях. Наши результаты показывают, что SelfCompact достигает или превосходит фиксированное интервальное суммаризацию при доле стоимости токенов, улучшая базовый результат без суммаризации на величину до 18,1 балла по математике и на 5–9 баллов по агентному поиску при снижении стоимости на вопрос на 30–70%. Наши результаты выявляют метакогнитивный разрыв: хотя немотивированные модели не могут надёжно определить, когда их собственный контекст «гниёт», лёгкая рубрика закрывает этот разрыв, переформулируя вопрос о моменте сжатия как способности, которую палеты могут предоставлять без обучения.
Телефоны становятся важной поверхностью выполнения для агентов общего назначения, однако обучение открытых моделей для надежного использования телефонов остается сложной задачей, поскольку среда, имеющая значение при развертывании — реальные устройства с работающими реальными приложениями — медленная, сохраняет состояние, имеет побочные эффекты и ее трудно сбросить или верифицировать, в то время как масштабируемые имитационные среды лишь приближают реальное поведение. Мы представляем PhoneBuddy — рецепт обучения и линейку открытых моделей для агентного использования телефонов, которая объединяет среду реальных приложений со средой имитационных приложений PhoneWorld, восстанавливающей запускаемые имитационные приложения на основе структуры использования реального GUI. PhoneBuddy сначала создает общий этап контролируемой донастройки на основе траекторий, собранных в обеих средах, а затем сравнивает обучение с подкреплением в реальных приложениях с смешанным обучением с подкреплением в обеих средах. В рамках оценки с участием людей на реальных телефонах, охватывающей 150 задач, включая приложения, мини-приложения и межприложенческие рабочие процессы, доля успешного выполнения задач увеличилась с 36,67% после контролируемой донастройки до 40,67% после обучения с подкреплением на реальных приложениях и до 45,33% после смешанного обучения с подкреплением. На AndroidWorld та же прогрессия возрастает с 60,3% до 77,2% и до 83,2%. Эти результаты показывают, что обучение на имитационных приложениях не является заменой обучению с подкреплением на реальных приложениях, а скорее дополнительным источником масштабируемого, сбрасываемого и автоматически проверяемого взаимодействия. Наибольший прирост наблюдается в задачах с приложениями и мини-приложениями, в то время как длительные межприложенческие рабочие процессы остаются важной открытой проблемой.
Научные исследовательские процессы, как правило, включают лабораторные записи, которые играют ключевую роль: в них исследователи фиксируют наблюдения, интерпретируют неопределенные результаты и планируют последующие эксперименты. Такие информативные записи сохраняют эволюцию научных рассуждений и авторскую неопределенность, в отличие от отшлифованных конечных результатов, представленных в публикациях, что открывает ценные возможности для ИИ в более глубоком и всестороннем научном поиске. Однако большинство предыдущих работ по научным текстам сосредоточено на статьях, протоколах или структурированных базах данных, оставляя неформальные лабораторные записи недостаточно изученными в качестве входных данных для агентов ИИ в науке. Этот пробел важен, поскольку в лабораторных записях часто смешиваются подтвержденные наблюдения, предварительные суждения и возможные следующие шаги в одном абзаце. Если эти сигналы не различать, агент ИИ может принять неопределенные научные суждения за подтвержденные выводы или выполнимые действия. Для решения этой проблемы мы представляем Notes2Skills — двухэтапную структуру, которая преобразует лабораторные записи в проверяемые навыки для научных агентов ИИ, сохраняя при этом степень определенности автора. В семи сценариях и трех лабораторных сессиях Notes2Skills оказался единственной конфигурацией, которая не принимает неопределенные записи за твердые инструкции и не отбрасывает твердые. Мы показываем, что сохранение определенности является недостающим звеном между лабораторными записями и надежными навыками агентов, открывая путь к более безопасным системам ИИ-соисследователей.
Агенты поиска (АП) обычно используют большие языковые модели (БЯМ) для поддержки сложных задач информационного поиска, автономно исследуя веб-источники и обобщая информацию в всесторонние ответы. Для оценки АП предыдущие бенчмарки в основном сосредоточены на специализированных задачах, которые вряд ли возникают в реальных пользовательских сценариях. Более того, их опора на грубые рубрики на уровне задач часто ограничивает интерпретируемость оценки. Чтобы восполнить этот пробел, мы представляем DailyReport — открытый бенчмарк для оценки возможностей АП в повседневных задачах поиска. Он содержит 150 открытых задач с 3546 связанными рубриками, отражающими широко обсуждаемые и актуальные информационные потребности реальных пользователей. Каждая задача декомпозирована на подзадачи и оценивается с помощью каскадных рубрик по раздельным измерениям. Благодаря каскадной атрибуции производительности и пользовательской агрегации мы получаем высокоинтерпретируемые оценки по каждому измерению, а также оценку предпочтений пользователя. Наши результаты по 17 агентным системам показывают, что текущие системы всё ещё не дотягивают до ожиданий пользователей. Чтобы способствовать дальнейшим исследованиям, наш набор данных и код публично доступны по адресу https://github.com/AGI-Eval-Official/DailyReport.
Агенты, использующие терминал, быстро стали самым популярным прикладным применением языковых моделей (ЯМ). Несмотря на их распространенность, относительно мало академических работ исследовало обучение этих моделей на основе обучения с подкреплением (RL), вероятно, из-за сложных бенчмарков, нехватки данных и отсутствия простых базовых рецептов. Мы представляем Tmax — сильнейший на сегодняшний день открытый RL-рецепт для терминальных агентов, приближающий открытые рецепты данных к передовому краю. Несмотря на свою простоту, наш рецепт достигает 27% на Terminal-Bench 2.0 всего с 9 миллиардами параметров, превосходя гораздо более крупные модели из предыдущих работ. В частности, мы генерируем данные с помощью новой таксономии, сочетающей контроль сложности, персоны и диверсификацию верификаторов, что позволяет нам недорого генерировать большие объемы терминальных сред для обучения с подкреплением (RL) и обучения с учителем (SFT). Мы публикуем с открытым исходным кодом наш терминальный набор данных, который более чем в 2,5 раза превосходит по размеру ранее опубликованные наборы данных для терминальных агентов. Затем мы обучаем модели с открытыми весами с помощью RL на наших данных, используя простой рецепт, основанный только на результатах. Мы публикуем наши данные, модели и код как надежный базовый ориентир для будущих открытых академических работ по терминальным агентам по адресу https://github.com/hamishivi/tmax.
Согласование моделей потокового сопоставления текст-изображение с человеческими предпочтениями с помощью прямого обратного распространения вознаграждения является эффективным с точки зрения выборки, но сдерживается двумя известными патологиями: активации не могут храниться на всей траектории выборки при современном масштабе модели, а цепные произведения Якоби по шагам раздувают градиент вознаграждения при его распространении обратно к начальным индексам. Методы на основе коннекторов, такие как LeapAlign, решают эти проблемы, заменяя полную обратную траекторию коротким фиксированным путём, подчёркивая полезное разделение между выборкой и оптимизацией. Однако качество результирующего градиента зависит от того, насколько точно этот короткий путь аппроксимирует полный прогон, особенно на длинных интервалах. Мы предлагаем FlowBP — унифицированную структуру суррогатных траекторий, которая рассматривает саму обратную траекторию как объект проектирования. FlowBP сохраняет кэшированный прогон без градиента для выборки, а затем строит лёгкий обратный суррогат на основе кэшированных и выборочно повторно прогнанных скоростей. Такой взгляд разделяет четыре выбора: входная модель вознаграждения, активное множество, веса интегрирования и мостовое сопряжение, и восстанавливает предыдущие прямые градиентные методы как частные случаи. В рамках этой структуры мы реализуем три варианта: FlowBP-Sparse использует разреженную реконструкцию Эйлера, FlowBP-Bridge добавляет управляемое мостовое сопряжение, а FlowBP-Lagrange повышает порядок шаговой квадратуры. Все три ограничивают память размером активного множества и сводят цепную связь градиентов к не более чем одному якобиану. Для SD3.5-M, FLUX.1-dev и FLUX.2-Klein-base по метрикам предпочтений, качества и композиции три варианта улучшают базовые методы прямого градиента по большинству метрик.
Потоковое согласование (flow matching) недавно зарекомендовало себя как мощная парадигма для современной генерации изображений по текстовым описаниям (T2I), обеспечивающая высокое качество при малом количестве шагов дискретизации. Поскольку такие модели всё активнее внедряются в реальные приложения, обеспечение безопасной и бесконфликтной генерации контента становится критически важным требованием. Однако адаптация методов обеспечения безопасности и удаления концептов к этой новой парадигме генерации остаётся открытой задачей. В частности, предыдущие методы в значительной степени опирались либо на итеративное управление траекторией на протяжении нескольких шагов шумоподавления, либо на манипуляции эмбеддингами запросов на основе CLIP. Эти допущения создают фундаментальные ограничения для безопасности в T2I-генерации на основе потокового согласования, где ограниченное число шагов дискретизации не позволяет проводить итеративные коррекции, а современные контекстно-ориентированные текстовые энкодеры снижают эффективность вмешательства на уровне эмбеддингов. В данной работе мы предлагаем VESFlow — метод обеспечения безопасности без обучения, адаптированный для потокового согласования с крайне малым количеством шагов дискретизации. Используя тот факт, что модели потокового согласования обучаются аппроксимировать маржинальную скорость, мы непосредственно редактируем поле скорости посредством апостериорной вероятности при условии безопасности. VESFlow направляет траекторию к безопасным результатам, оставляя исходный запрос без изменений. На основе наблюдения, что VESFlow не изменяет выходные данные при безобидных запросах, мы дополнительно вводим фильтрацию на основе оценки риска, которая позволяет обойти редактирование скорости для снижения вычислительных затрат, сохраняя при этом генерацию по безопасным запросам. Основываясь на этой фильтрации, мы предлагаем VESFlow+ — более сильную версию VESFlow, которая не только редактирует скорость в безопасном направлении, но и отталкивает её от небезопасного. Экспериментальные результаты показывают, что VESFlow+ удаляет целевой концепт, снижая уровень успешных атак по метрике NudeNet до 6.3% на наборе Ring-A-Bell и до 6.8% на MMA-Diffusion для модели MeanFlow с 4 шагами, сохраняя при этом верность результатов для безобидных запросов.
Модели с открытыми весами (Open-weight Large Language Models, LLMs) способствуют научному прогрессу и широкому развёртыванию. Однако они затрудняют контроль доступа к чувствительным возможностям. Современная практика либо подавляет опасные возможности до выпуска, либо опосредует доступ через закрытые сервисы, использующие специализированные варианты моделей, мониторы ввода/вывода и разрешения API. Первый подход уязвим для взломов (jailbreaks) и жертвует производительностью для всех пользователей ради снижения рисков со стороны немногих, а второй принципиально несовместим с выпуском открытых весов. В данной статье мы предлагаем Многоуровневые Языковые Модели (Tiered Language Models, TLMs), где единый набор выпущенных весов поддерживает несколько уровней возможностей. В своей стандартной общедоступной конфигурации TLM ведёт себя как обычная LLM. Компактный секретный ключ задаёт перестановку небольшого подмножества параметров, порождая альтернативный вычислительный граф на тех же весах, который открывает дополнительные возможности. Мы разрабатываем протокол обучения, который совместно предварительно обучает обе конфигурации с нуля, а затем дообучает конфигурацию с ключом на приватных данных с регуляризацией для сохранения поведения общедоступной модели. Мы предварительно обучили TLM с 180 млн и 650 млн параметров и показали, что конфигурация с ключом способна освоить новый язык, приобрести способность следования инструкциям и запомнить приватные фактические знания, тогда как общедоступная конфигурация не демонстрирует ни одной из этих способностей. Более того, мы показываем, что наш подход естественным образом расширяется на несколько иерархических уровней. Поскольку авторизация оперирует структурой весов модели, а не входным пространством, механизм устойчив к извлечению путём дообучения и частичной компрометации ключа. В целом, TLM представляют собой шаг к примирению выпуска открытых весов с избирательным контролем возможностей.
Латентное предварительное обучение действиям позволяет изучать представления визуальных изменений на основе пар наблюдений, однако существующие методы обычно кодируют каждый переход в виде единого неструктурированного представления, смешивающего степень и режим перехода. Мы предлагаем полярные латентные действия с радиальной структурой (PoLAR), которая накладывает радиально-направленную структуру на латентные действия, побуждая радиус кодировать степень перехода, а направление — режим перехода. PoLAR использует временное расстояние между двумя наблюдениями в качестве слабой аппроксимации степени перехода, стимулируя латентное действие из пар наблюдений, разделённых большими временными интервалами, занимать большие радиусы. Мы реализуем эту структуру в гиперболическом пространстве, чей расширяющийся объём с увеличением радиуса естественным образом подходит для более разнообразных режимов перехода при больших степенях. В условиях внутризадачного и крупномасштабного предварительного обучения PoLAR улучшает производительность нижележащих политик в симуляционных и реальных робототехнических экспериментах, превосходя базовые алгоритмы латентных действий и сильные предобученные VLA. Эти результаты свидетельствуют о том, что геометрия пространства латентных действий является важным проектным решением для переноса визуального предварительного обучения на последующее обучение робототехнических политик.
Данная работа представляет общую структуру для обучения больших языковых моделей (LLM) способности «соединять точки» (CoD) — мета-компетенции, необходимой для агентов с длительным жизненным циклом: когда ИИ-агент на основе LLM развертывается в среде, он решает длинную последовательность задач, непрерывно исследуя среду, обучаясь на собственном опыте и итеративно обновляя свой контекст о среде, тем самым достигая все более высокой производительности при решении будущих задач с учетом обновленного контекста. Основные компоненты структуры CoD включают: (1) разработку алгоритмов и инфраструктуры для сквозного обучения с подкреплением (RL) с длинными последовательностями развертывания, чередующими эпизоды решения задач и обновления контекста; (2) задачи и среды для стимулирования и выявления целевой мета-компетенции в LLM в ходе обучения, а также для надежного измерения прогресса при оценке. Мы представляем прототипные реализации структуры CoD, включая RL-алгоритм в стиле GRPO с точным распределением кредитов, а также задачи и среды, адаптированные под целевую мета-компетенцию (а не под доменно-специфичные возможности LLM или стандартное RL «задача за задачей»). Эмпирические результаты подтверждают эффективность сквозного обучения с подкреплением в условиях CoD и демонстрируют потенциал для обобщения на распределения, выходящие за пределы обучающих данных — внутри обучающих доменов, между разными доменами, а также от CoD к настройкам Ralph-loop — для выявленной мета-компетенции. Наше исследование CoD связывает несколько направлений предыдущих работ и открывает новые возможности для развития LLM и ИИ-агентов. Для содействия дальнейшим исследованиям и приложениям мы публикуем наши реализации по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
В последние годы предпринимались попытки объединения больших языковых моделей (БЯМ) с обнаружением причинно-следственных связей: модели использовались для вывода направленности парных связей, предложения структуры графов или внедрения результатов работы языковых моделей в качестве априорных знаний и ограничений. Такой подход обещает ускорение анализа, но при этом затрудняет понимание того, подтверждается ли причинный вывод данными и предположениями или же текстовыми ассоциациями, артефактами запроса и галлюцинированными механизмами. Мы выступаем за иную роль агентов в обнаружении причинных связей. Агенты должны проверять данные, извлекать контекст, пояснять методологические предположения и уточнять выходные графы, но не должны предоставлять рёбра, ориентации, априорную информацию, ограничения или причинные заключения. Мы предлагаем принцип, согласно которому агенты лишь содействуют рабочему процессу, тогда как причинные утверждения остаются обоснованными на данных, явно сформулированных допущениях, формальных алгоритмах, диагностике и решениях пользователя или эксперта в предметной области. Этот принцип реализован в платформе causal-learn+ — онлайн-инструменте, координирующем анализ данных, предобработку, рекомендации по методам, внедрение экспертных знаний, формальное обнаружение и интерпретацию на основе алгоритмической экосистемы causal-learn. Пример использования на данных «Большой пятерки» личностных черт иллюстрирует агентно-ассистированный конвейер причинного вывода, не превращающий ненадёжность языковой модели в подтверждение причинно-следственных связей. Платформа доступна по адресу causallearn.com.
Современные языковые модели, включая трансформеры, рекуррентные архитектуры и варианты с памятью, имеют общий каркас: стопка идентичных слоёв, в которых параметры распределены равномерно по глубине. Это стандартное решение, унаследованное от оригинального трансформера и практически не изменившееся с тех пор, хотя накапливается всё больше данных, свидетельствующих о том, что слои вносят неравномерный вклад в конечный результат: более поздние слои скорее уточняют остаточный поток, нежели преобразуют его. Мы задаёмся вопросом, должна ли ёмкость параметров отражать эту асимметрию. Наш контролируемый эксперимент показывает, что при фиксированном бюджете выделение большей ёмкости ранним слоям и меньшей — поздним улучшает перплексию по сравнению с эталонной архитектурой равномерной ширины, в то время как обратное распределение ухудшает показатели. Основываясь на этом результате, мы представляем сужающиеся языковые модели (Tapered Language Models, TLM) — архитектурный принцип, в котором несущий параметры компонент монотонно сужается по глубине при фиксированном общем бюджете. MLP являются естественным местом для такого воплощения: они доминируют по количеству параметров во всех современных семействах языковых моделей и предоставляют ширину как единственную чистую ось изменчивости. На трёх масштабах моделей и четырёх архитектурах (Transformer, Gated Attention, Hope-attention и Titans) сужение ширины MLP с помощью плавного косинусного расписания последовательно улучшает перплексию и производительность на эталонных тестах downstream по сравнению с равномерными эталонами, не увеличивая количество параметров или вычислительные затраты. Эти результаты устанавливают распределение ёмкости с учётом глубины как простую, не зависящую от архитектуры ось дизайна языковых моделей — бесплатный рычаг, скрытый на виду.
По мере того как агентные системы решают всё более сложные многошаговые задачи, оценка их траекторий становится серьёзным узким местом — разметка одной траектории в популярных бенчмарках для агентов может занимать часы, что затрудняет масштабирование оценок для измерения производительности или сбора обучающих данных. Это привело к широкому использованию автоматизированных подходов, таких как LLM-судья (LLMJ), для критики агентов на уровне процессов и результатов в масштабе, однако обоснованность оценок LLMJ часто остаётся неизмеренной. Здесь мы представляем Counsel — первый общедоступный набор данных мета-оценок для агентных задач. Counsel состоит из покомпонентных критических замечаний от LLMJ с открытыми весами для двух агентных бенчмарков: tau-bench (агенты поддержки клиентов) и DA-Code (агенты-кодеры), а также человеческих мета-оценок этих замечаний. Аннотаторы-люди маркируют критические замечания по каждой отмеченной ошибке как «точно в цель», «верное местоположение, но слабая аргументация» или «не должно было быть отмечено», достигая надёжного межаннотаторского согласия (альфа Криппендорфа 0.78). Полученный набор данных стратифицирует критические замечания LLMJ по согласованности с человеком как по местоположению ошибки в траектории, так и по качеству аргументации, служа ценными данными для калибровки, улучшения или обучения LLMJ для агентов. Сравнивая судей с открытыми весами, мы обнаружили, что более способные модели-судьи и большие затраты на рассуждение способствуют улучшению согласия с человеком, при этом самый сильный судья достигает ~88% согласия по местоположению и ~65% по аргументации. Counsel создан с использованием моделей с открытыми весами и распространяется по свободной лицензии для широкого использования сообществом, что, как мы надеемся, позволит проводить тщательные исследования и улучшать согласованность оценщиков на основе LLM для агентных систем.
Мультивидовая 3D-визуальная вопросно-ответная система (MV3D-VQA) требует интеграции частичных наблюдений в целостное представление 3D-сцены и выбора информативных точек обзора для многопланового пространственного рассуждения. Однако современные мультимодальные большие языковые модели обычно обучаются с разреженным контролем на уровне ответов, что часто приводит к несогласованному кросс-видовому рассуждению и хрупкому выбору ракурсов. Мы представляем DR-MV3D (плотная награда для MV3D-VQA) — основанный на карте обучающий фреймворк, который обеспечивает плотные верифицируемые награды для управления процессом рассуждения. Наш подход декомпозирует MV3D-VQA на (i) аллоцентрическое построение глобальной карты, (ii) планирование траектории обзора, обусловленное вопросом, и (iii) эгоцентрическое обоснование для предсказания ответа. Чтобы сделать промежуточные шаги обучаемыми без ручной разметки, мы вводим две награды: награду за глобальную согласованность, которая выравнивает предсказанную карту с геометрически согласованными псевдоцелями из замороженных фундаментальных 3D-визуальных моделей (например, VGGT + SAM3), и локальную награду за траекторию, которая контролирует упорядоченный выбор точек обзора. Мы оптимизируем полный конвейер с помощью оптимизации политики на уровне траекторий (GRPO). Эксперименты на MindCube, VSI-Bench и BLINK (MV) показывают, что DR-MV3D стабильно превосходит сильные мультиизображенческие базовые модели, подтверждая эффективность плотного контроля на уровне процессов для мультивидового 3D-рассуждения.
Модели Vision-Language-Action (VLA) представляют собой единую парадигму для роботизированного манипулирования, однако их развертывание в реальных условиях часто ограничено эффективностью выполнения. Хотя существующие усилия в основном сосредоточены на вычислительной эффективности для снижения задержки вывода на каждом шаге, внутренняя эффективность политики этих моделей остается в значительной степени неизученной. Эффективность политики в первую очередь определяется двумя факторами: эффективной исполнимой длиной предсказанных блоков действий и общим количеством физических шагов, необходимых для выполнения задачи. Эти два фактора совместно определяют общее количество вызовов прямого вывода в процессе выполнения. Мы замечаем, что текущие VLA-политики страдают от ненадежности планирования и избыточности действий, демонстрируя серьезную деградацию предсказаний в конце блоков действий и склонность к генерации излишне избыточных физических шагов. Для решения этой проблемы мы предлагаем PolicyTrim — фреймворк последующего обучения на основе обучения с подкреплением, который расширяет надежную длину блоков действий и сокращает избыточные физические шаги. Для надежного расширения блоков мы используем стратегию динамического исследования, которая явно поощряет успешное выполнение задач с большей исполнимой длиной, постепенно продвигая доверительный горизонт предсказаний к его эмпирическому пределу. Для эффективности шагов мы разрабатываем награду, учитывающую избыточность, которая напрямую поощряет успешное выполнение задач с меньшим числом шагов и одновременно штрафует невоспроизводимые сокращения, эффективно устраняя избыточные физические действия. Обширные эксперименты на трех эталонных наборах данных и трех VLA-моделях показывают, что PolicyTrim улучшает использование блоков действий в 3 раза и сокращает количество физических шагов выполнения на 51,4%. В конечном итоге наш фреймворк обеспечивает ускорение сквозного развертывания до 5,83 раза без снижения показателя успешности выполнения задач.
Может показаться заманчивым предположить, что любую задачу, решаемую короткой программой, можно обучить модели как её цепочку рассуждений: выписать шаги, дообучить, и модель следует им. В этой статье показано, что данное предположение не выполняется для определённого класса процедур. В качестве тестовой среды используются девять задач на рассуждение, каждая из детерминированного генератора; открытые и скрытые разделы используют одни и те же генераторы, поэтому отложенные данные служат прокси для точности на тесте. Я провожу обратную разработку генераторов в решатели на Python, представляю их в виде цепочки рассуждений и дистиллирую в LoRA ранга ≤ 32 поверх модели Nemotron размером 30B (3.5B активных). Задачи, вычислимые прямым ходом, устанавливаются легко: задачи поиска/арифметики и 8-битная булева задача переносятся (≥ 0.99 и 0.68). Криптарифм — нет: дистилляция его поиска с возвратом держится на уровне 0.01–0.07 при одиннадцати вариантах цепочки рассуждений, обучении с подкреплением на проверяемых вознаграждениях и самообучении, хотя решатель на основе поиска отвечает на 71% примеров. Это не разрыв в способностях. Модель выполняет арифметические действия в 97–100% строк и помещает правильный шифр в свою восьмёрку лучших в 71% случаев; но она не может провести поиск вперёд как вывод слева направо. Тонкая настройка изучает форму проверяемого шага исключения, в то время как её вердикты становятся безусловными шаблонами, правильными лишь в 16–57% случаев («вердикт-как-токен»). Этот потолок сохраняется для базовых моделей от 3B до 671B и при тонкой настройке и промптинге; контролируемое вмешательство изолирует причину: раскрытие ключа шифра, который превращает вывод в прямой, поднимает те же примеры с 0.03 до 0.57. Когда единственное решение процедуры — это поиск по структуре, лишённой информации, не существует достоверной прямой цепочки рассуждений для подражания. Задача становится обучаемой только при удалении поиска, предварительном вычислении его комбинаторной основы в каталог и сведении трассы к запоминанию плюс проверке; решение, занявшее первое место, достигает таким образом 0.92 в скрытом лидерборде. Дистиллируется запоминание и проверка, а не поиск.
Модели диффузии видео обеспечили значительный прогресс в генерации и редактировании видео. Однако сохранение содержимого остаётся ключевой проблемой: существующие методы регенерируют каждый пиксель и часто изменяют элементы, которые должны оставаться неизменными, такие как персонажи или фон. Мы представляем Vera — многослойную диффузионную структуру для редактирования видео с сохранением содержимого. Вместо полной регенерации видео Vera генерирует слой редактирования вместе с альфа-каналом для компоновки с исходным видео, разделяя творческое редактирование и сохранение содержимого по замыслу. Для обеспечения согласованной композиции с исходным видео мы расширяем текст-в-видео DiT до архитектуры «Смесь трансформеров» (MoT), с отдельными DiT для каждого слоя, взаимодействующими через совместное самовнимание. Для поддержки обучения Vera мы также создаём высококачественный многослойный набор данных с точными альфа-каналами, разнообразными сценами и динамикой, а также визуальными эффектами. В рамках нашего количественного бенчмарка и исследования предпочтений пользователей Vera превосходит ведущие модели редактирования видео с открытым исходным кодом в сохранении содержимого, сохраняя конкурентоспособность в качестве редактирования, используя 486 тысяч кадров многослойных обучающих данных.
Обучение с подкреплением (RL) является центральным подходом для улучшения способностей к рассуждению в больших языковых моделях (LLM), где эффективность обучения критически зависит от того, как задачи выбираются во время оптимизации. Существующие методы адаптивного куppingкулумного обучения, как правило, отдают приоритет подсказкам промежуточной сложности, рассматривая выбор задач как стандартную задачу многорукого бандита с независимыми рукавами и игнорируя структурированную, гетерогенную природу пространства задач. В этой работе мы формулируем выборку задач как проблему бандита с многообразной структурой и эндогенной нестационарностью: задачи связаны через пространство латентных представлений модели, и решения о выборке могут направлять то, как обучающие сигналы эволюционируют в этом пространстве. Для операционализации этой перспективы мы вводим Байесовский многообразный куppingкулум (BMC) — основанную на структуре структуру, которая организует задачи в иерархическое дерево задач и применяет байесовское обучение для управления выборкой. Эмпирически мы обнаруживаем, что разные стратегии выборки порождают нетривиальные компромиссы между продуктивностью (обучающий сигнал), разнообразием (покрытие многообразия задач) и полезностью (релевантность для оценки). Эти результаты показывают, что приоритизация только сложности недостаточна для достижения высокой производительности на последующих этапах, что подчеркивает важность включения структуры и осведомленности о типах в выборку задач.
Линейные зонды широко используются в исследованиях интерпретируемости и часто сравниваются с помощью косинусного сходства. Косинусное сходство Махаланобиса (MCS) между двумя направлениями, которое перевзвешивает скалярное произведение по ковариации тестовых данных, является естественным уточнением, учитывающим специфику задачи. Йинг и др. (2026) сообщают, что MCS зонда с эталонным зондом, обученным на данных, не принадлежащих распределению (OOD), почти идеально линейно предсказывает OOD AUROC зонда (R² = 0,98). В данной работе мы расширяем это эмпирическое наблюдение на различные модели, слои и концептуальные области, а также доказываем данное общее явление в замкнутой форме: для сбалансированных классов, проекции которых являются гауссовскими, OOD AUROC и MCS с эталонным зондом линейно связаны, поскольку обе величины представляют собой сигмоидальные функции отношения сигнал/шум (SNR) зонда на тестовых данных. Теория также предсказывает случаи, когда эта линейность нарушается, что мы подтверждаем эмпирически. MCS является теоретически обоснованной и эмпирически эффективной альтернативой евклидову косинусному сходству для сравнения линейных зондов.
Хотя большие и разнообразные наборы данных способствовали недавним достижениям в области больших моделей, определение оптимального состава данных для предварительного и последующего обучения остается важной открытой проблемой. Мы решаем эту задачу с помощью FASTMIX — новой платформы, которая автоматизирует поиск состава данных, обучая при этом только одну прокси-модель. Вместо того чтобы полагаться на заранее заданные эвристики или ресурсоемкие симуляции, FASTMIX совместно оптимизирует коэффициенты смеси и параметры модели, значительно повышая эффективность и масштабируемость по сравнению с предыдущими подходами. В основе FASTMIX лежит переформулировка выбора смеси как задачи двухуровневой оптимизации. В рамках этой переформулировки мы показываем, что оптимизация пропорций смеси математически эквивалентна присвоению весов потерь для каждого источника при равномерной выборке источников. Это встраивает коэффициенты смеси непосредственно в дифференцируемую итерационную целевую функцию оптимизации, что позволяет эффективно оптимизировать как смесь, так и модель на основе градиентов. Для решения задачи оптимизации FASTMIX реализует приближенную итерационную процедуру, чередующую (i) обновление параметров модели на данных, выбранных в соответствии с текущими пропорциями смеси (внутренний цикл), и (ii) обновление пропорций смеси на основе обратной связи с валидационного набора (внешний цикл). Как на этапе предварительного, так и последующего обучения FASTMIX превосходит базовые подходы, одновременно значительно снижая стоимость поиска. Код (https://github.com/hrtan/fastmix)
Визуальные трансформеры (ViT) доминируют в компьютерном зрении. Однако их зависимость от жёстких проекторов патчей затрудняет перенос на задачи наблюдения Земли (НО), где входные модальности, масштабы и разрешения сильно варьируются. Мы представляем UniverSat — базовый модуль в стиле ViT, построенный на основе универсального кодировщика патчей, который отображает патчи произвольного пространственного, спектрального и временного разрешения, как с оптических, так и с неоптических датчиков, в общее пространство вложений с общим набором весов. Это позволяет обучать единую модель на гетерогенных мультимодальных корпусах данных с помощью самоконтроля, получая устойчивые, не зависящие от датчика пространственные признаки. Мы подтверждаем эффективность подхода высокими результатами в задачах классификации и сегментации на стандартных эталонных тестах НО из GeoBench, PANGEABench и SpectralEarth. Наш код и модели доступны по адресу https://github.com/gastruc/UniverSat.
По мере того как лаборатории ИИ приближаются к потолку данных, когда вычислительные мощности превышают скорость генерации новых качественных текстов, предобучение языковых моделей переходит в режим ограниченности данных и избытка вычислений, требующий продуктивного многократного обучения по эпохам на фиксированных корпусах. Стандартное авторегрессионное (АР) предобучение в таких условиях сильно переобучается, достигая своего оптимума рано, а затем непрерывно ухудшается. Мы исследуем аугментацию данных на этапе обучения как регуляризатор для смягчения этого переобучения и обеспечения продуктивного обучения на сотнях эпох на одних и тех же данных. Мы вводим три ортогональные категории аугментации для АР-предобучения: шум на уровне токенов (маскировка, случайная замена), перестановки последовательностей (предсказание справа налево, заполнение пропусков в середине) и предсказание со смещением целевого токена (\(x_{t+i}\) для \(i > 1\)). С помощью систематических аблаций мы обнаруживаем, что отдельные аугментации задерживают переобучение и снижают значение функции потерь на проверочном наборе по сравнению с базовым вариантом, причем случайная замена токенов достигает наилучшего минимального значения функции потерь среди отдельных методов. Комбинирование категорий аугментаций дополнительно снижает минимальное значение функции потерь на проверочном наборе. Наши эксперименты показывают, что аугментации данных смягчают неэффективность использования данных при АР-предобучении и предлагают многообещающее решение для режима ограниченности данных~\footnote{Весь код и данные доступны по адресу https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}
Агенты на основе больших языковых моделей в вопросно-ответных системах, требующих интенсивного использования знаний, выполняют действия по поиску информации и рассуждению, обладая неполным знанием о том, является ли их текущий ответ неопределённым, необоснованным или уже завершённым. Это приводит к двум типам ошибок: принятию уверенных, но необоснованных ответов, что снижает точность, и избыточному поиску, когда имеющихся сведений уже достаточно, что приводит к нерациональному расходованию вычислительных ресурсов. Чтобы предоставить агентам более полную картину пространства состояний, в котором они действуют, мы вводим калиброванную телеметрию верификатора (CalVerT), которая дополняет состояние агента дополнительными данными: калиброванной оценкой самоуверенности и оценкой верификатора обоснованности. Мы показываем, что CalVerT может улучшить работу агентов как в режимах без обучения, так и с обучением. На четырёх эталонных наборах данных для вопросно-ответных систем мы обнаруживаем, что CalVerT повышает F1-меру, инициируя поиск в тех случаях, когда агенты чрезмерно полагаются на параметрические знания, и сокращая избыточный поиск в случаях, когда у агентов уже есть достаточный контекст для ответа. Мы демонстрируем, что CalVerT может дополнять существующие вопросно-ответные системы без дополнительного обучения. Более того, CalVerT также улучшает обученные системы: простое дополнение состояния агента телеметрией приводит к улучшениям после обучения с подкреплением по сравнению с агентом, прошедшим идентичное обучение, но без телеметрии CalVerT.
Дискретная оптимизация текстовых триггеров — поиск текстовых последовательностей, которые при подаче на вход модели направляют её поведение в сторону заданной цели — лежит в основе red-teaming моделей (например, обход ограничений LLM), а также аудита и интерпретируемости. Однако текущее состояние дискретных оптимизаторов препятствует их внедрению и развитию. Во-первых, существующие оптимизаторы, даже если они открыты, разбросаны по исследовательским кодовым базам, привязанным к конкретным моделям, целям и предметным областям. Во-вторых, множатся варианты оптимизаторов, каждый из которых требует инженерных затрат на использование или расширение, и их трудно напрямую сравнивать. В совокупности это повышает барьер для внедрения оптимизаторов в существующие или новые области, а также для их совершенствования с помощью новых стратегий. Мы устраняем эти пробелы с помощью TROPT — первого фреймворка с открытым исходным кодом, который унифицирует выполнение дискретных оптимизаторов и стандартизирует их разработку через единый интерфейс. TROPT упрощает настройку сквозных рецептов оптимизации, позволяя заменять любой компонент — модели, цели и оптимизаторы, — расширяя его применение в различных областях и новых приложениях. В настоящее время TROPT включает более 30 рецептов оптимизации — охватывающих такие приложения, как обход ограничений и исследование внутреннего устройства моделей, — построенных на основе более 15 оптимизаторов (от доступа типа «белый ящик» до «чёрного ящика») и более 15 функций потерь — от базовых до современных методов. Демонстрируя свою полезность, мы применяем TROPT в нескольких исследованиях: (i) контролируемые крупномасштабные эксперименты по сравнению и улучшению стратегий оптимизации для обхода ограничений LLM, выявляющие мощные, но малоиспользуемые методы; (ii) перенос оптимизаторов из одной области (например, обход ограничений LLM) в новые области (например, отравление корпуса данных для модели вложений). В целом TROPT значительно снижает барьер для внедрения и развития дискретной текстовой оптимизации.
Агенты на базе больших языковых моделей, работающие на длинных горизонтах планирования, могут незаметно давать сбой: они преждевременно фиксируются на одной интерпретации данных, а затем тратят оставшееся время на её защиту. Мы называем это явление преждевременной фиксацией (premature commitment). Оценка по финальному ответу не выявляет данный вид отказа, поскольку учитывает только ответ, а не то, коллапсировал ли уже процесс в устойчивую траекторию. Мы определяем репрезентационную фиксацию (representational commitment) как конвергенцию скрытых состояний между различными прогонами на фиксированном шаге рассуждения и используем её в качестве раннего диагностического признака согласованности траектории. На модели Llama-3.1-70B, выполняющей ReAct на наборе HotpotQA, сходство скрытых состояний на шаге 4 предсказывает последующую поведенческую согласованность (r = -0.35, частный r = -0.45), демонстрируя локализованный временной и послойный паттерн. Этот сигнал воспроизводится на моделях Qwen-2.5-72B и Phi-3-14B, а также на наборе StrategyQA (r = -0.83). При этом он не отслеживает правильность: вопросы с ошибочной фиксацией и вопросы с верной фиксацией неразличимы по сходству активаций. Эта граница является центральной для нашего утверждения. Фиксация свидетельствует о том, устоялся ли агент в своём решении, а не о том, верно ли оно. Монитор времени выполнения, анализирующий скрытые состояния, выявляет несогласованные траектории с AUC-ROC до 0.97 (0.85–0.88 при более строгом разбиении), а вмешательство в виде специального промпта снижает поведенческую дисперсию на 28% по сравнению с контролем, основанным на сопоставлении токенов, оставляя точность статистически неизменной. Мы также проверяем, может ли этот сигнал направлять вычисления самосогласованности; на более сложном эталоне он даёт лишь скромный прирост и не превосходит более простой базовый метод, основанный на выходных данных. В итоге мы получаем диагностический метод для скрытого отказа процесса, обладающий чёткими ограничениями, а не универсальный рычаг повышения точности.
Агенты компьютерного использования (CUAs) теперь действуют от имени пользователя в личных приложениях, таких как электронная почта, календари и списки задач. Этот межприложенческий доступ полезен, но также создаёт риск нарушения конфиденциальности, который в значительной степени игнорировался: когда агент работает в одном контексте, он может извлекать информацию из другого контекста, которая неуместна в данном контексте. Поэтому мы представляем AgentCIBench — оценочный инструмент, превращающий этот риск в исполняемые сценарии с детерминированной оценкой. Мы нацелились на три распространённых режима сбоя в CUAs: визуальное совместное расположение, когда агент извлекает запрещённые элементы, находящиеся рядом с целью задачи в пользовательском интерфейсе; чрезмерное раскрытие из-за неоднозначности задачи, когда агент выгружает плотное личное состояние в ответ на недостаточно конкретный запрос; и несоответствие получателю, когда агент отправляет контент адресату, для которого он неуместен. Мы оценили 15 передовых агентов и обнаружили удивительно высокий уровень отказов: 11 из 15 допускают утечку более чем в 50% сценариев, со средней утечкой 67,9%, и те же сбои сохраняются, когда агенты действуют комплексно в среде для выполнения задачи. Мы публикуем AgentCIBench, чтобы стимулировать разработку более безопасных агентов компьютерного использования, и позиционируем тестирование контекстного раскрытия как проверку безопасности перед развёртыванием.
Текстово и изображенчески обусловленные 3D-модели теперь создают убедительные объекты, но всё ещё предоставляют мало прямого контроля над пространством, которое объект должен занимать или избегать. При авторской разработке этот пространственный замысел часто известен ещё до начала генерации. Стул должен вписываться в посадочную оболочку, реквизит должен оставлять зазор для движения, а деталь должна обеспечивать контактную поверхность. Текстовые подсказки и виды изображений плохо подходят для передачи таких ограничений, что требует явного интерфейса управления. Мы представляем Arbor — обучаемое дополнение для текстово обусловленной латентной 3D-генерации. Arbor вводит сетки ограничений в качестве собственного 3D-интерфейса управления. Интерфейс использует области оболочки, где должна существовать геометрия, области избегания, которые должны оставаться пустыми, и области касания, с которыми объект должен контактировать. В отличие от завершения или управления всем каркасом объекта, эти сетки не являются целевыми свидетельствами. Это локальные типизированные требования, которые могут включать области, где не должно быть поверхности. Arbor сохраняет этот сигнал как геометрию, преобразуя сетки ограничений в токены и обучая маршрутизированное дополнение внутри замороженного денойзера. Таким образом, каждая латентная область может получить ту часть ограничения, которая значима для её пространственного расположения. Мы оцениваем Arbor на автоматических и созданных художниками контрольных тестах с ограничениями оболочки, избегания и касания, а также сравниваем тренды метрик с исследованием пользовательских предпочтений. Даже без специальных функций потерь для соблюдения ограничений Arbor улучшает их выполнение, сохраняя качество объектов и их разнообразие при фиксированных ограничениях.
Сетки являются одними из наиболее распространенных способов представления трехмерных сцен, однако прямая генерация сеток затруднена из-за наличия в этом представлении важных симметрий, включая инвариантность к перестановкам граней и вершин. MeshFlow учится генерировать треугольные сетки непосредственно как треугольные супы, избегая необходимости сериализации сеток в длинные авторегрессионные последовательности. Мы используем эквивариантные модели согласования потоков на основе оптимального транспорта, которые учитывают ключевые симметрии треугольных супов: произвольные перестановки граней и перестановки вершин внутри каждой грани. Для достижения этой цели мы предлагаем простую, но эффективную модификацию архитектуры Diffusion Transformer, что приводит к масштабируемой сети, способной моделировать поле скоростей с сохранением требуемой эквивариантности. Кроме того, мы вводим целевую функцию обучения на основе оптимального транспорта, которая улучшает сходимость за счет устранения сигналов обратной связи, нарушающих эти симметрии. MeshFlow достигает качества сеток, сравнимого с современными авторегрессионными генераторами сеток, обеспечивая при этом ускорение примерно в 18 раз в процессе инференса. Страница проекта: https://qiisun.github.io/MeshFlow/.
С быстрым распространением генерации с дополнением поиска и семантического поиска выбор правильной конфигурации встраивания и поиска становится всё сложнее. Крупные эталоны поиска всеобъемлющи, но слишком тяжелы для повторного запуска в процессе разработки, и практически отсутствует инфраструктура для сравнения производственных настроек — снижения размерности, квантизации, переранжирования — для множества моделей в идентичных условиях. Мы представляем HAKARI-Bench, легковесный эталон, который реконструирует существующие наборы поиска в небольшие наборы данных (Nano-sets): 35 эталонов и 551 задача на 43 языках в едином формате, обеспечивая сравнение пяти семейств поиска (BM25, плотные, разреженные, позднего взаимодействия, ранжировщики) и их вариантов эффективности в одинаковых условиях, независимо от модели. Для 55 моделей его общий рейтинг воспроизводит официальный MTEB retrieval v2, MMTEB v2 retrieval и английский BEIR (полный) при Spearman >0.97. HAKARI-Bench не заменяет полную оценку; он обеспечивает быстрый выбор модели, обнаружение регрессии и анализ границы Парето качества-эффективности. Код, данные и таблица лидеров выпущены под лицензией MIT.
Реконструкция динамических нежестких объектов по монокулярному видео требует интеграции визуальных признаков из прямых наблюдений с эмпирическими априорными данными о геометрии и внешнем виде. Существующие подходы либо обучаются напрямую предсказывать 4D-представления по визуальным данным, либо инициализируют 3D-представление, которое впоследствии деформируется и уточняется на основе видеосвидетельств. Однако первые ограничены нехваткой 4D-обучающих данных, тогда как вторые используют априорные данные только для начальной реконструкции, а в дальнейшем полагаются исключительно на видеонаблюдение; ни один из подходов не справляется со сложными сценариями в реальных условиях, характеризующимися сильными деформациями и окклюзиями. Мы представляем Lift4D — фреймворк оптимизации во время тестирования, устраняющий оба ограничения. Во-первых, мы адаптируем существующую модель 3D-реконструкции по одному виду для получения темпорально согласованных предсказаний на каждый кадр с помощью каузального латентного обусловливания, что обеспечивает когерентную инициализацию представления деформируемого 3D-гауссова сплатинга. Затем мы «вылепливаем» это представление для соответствия входному видео посредством оптимизации с учетом окклюзий, которая достоверно восстанавливает видимые детали поверхности, одновременно дополняя ненаблюдаемые области с помощью априорного распределения диффузии, обусловленного видом. Мы демонстрируем, что Lift4D значительно превосходит предыдущие методы 4D-реконструкции, особенно на сложных последовательностях в реальных условиях с сильными окклюзиями и нежесткими движениями.
Генеративные музыкальные системы теперь способны создавать впечатляющие аудиофайлы по текстовым подсказкам, однако аудиовыходы сложно проверять, редактировать и диагностировать с точки зрения музыкальной структуры. Мы представляем Libretto — ориентированную на агентов структуру для генерации и редактирования символической музыки. Libretto использует нативную для LLM грамматику с явными слотами начала, голосами и организацией на уровне тактов, а затем оценивает каждое произведение в статистическом пространстве, калиброванном по корпусу, по параметрам ритма, гармонии, мелодии, фактуры, формы и вариации. Те же структурные оси поддерживают поиск, диагностику, контроль риска копирования и итеративную саморедакцию. При заполнении пропусков, генерации целого произведения по образцу, постепенном морфинге и генерации учебной музыки Libretto превращает символическую музыку из последовательности необработанных токенов в измеримый и редактируемый объект для агентов на основе языковых моделей.
Кинопроизводство требует точного контроля движения и композитинга эталонных изображений — возможностей, которые существующие методы рассматривают по отдельности. Модели от изображения к видео с условием на точечные треки ограничивают вставку контента первым кадром, тогда как модели от эталонного изображения к видео не обладают тонким пространственно-временным контролем над тем, как эталонный контент интегрируется между кадрами. Мы представляем Go-with-the-Track, который объединяет обе возможности путем совместного задания условий на несколько эталонных изображений и привязанные к эталонам точечные треки — расширяя обычные точечные треки для явного установления соответствий между генерируемыми кадрами и эталонными изображениями, что обеспечивает точный композитинг и контроль движения на протяжении всего видео. Для этого мы вводим пространственно-осведомленные эмбеддинги точечных треков, которые кодируют полную последовательность координат точечных треков с помощью покоординатного MLP с последующим временным пулингом. Это представление захватывает пространственные характеристики каждого точечного трека (служа уникальным идентификатором), в то время как сходство эмбеддингов напрямую коррелирует с пространственной близостью, улучшая способность модели различать и ассоциировать точечные треки. Мы внедряем эти эмбеддинги точечных треков в диффузионный трансформер видео через легковесный адаптер, разрешая несоответствие разрешения между пикселями и патчами, избегая при этом существенной потери деталей движения, присущей наивной подвыборке точечных треков. Мы используем гибридную стратегию обучения для совместного обучения на наборах видеоданных динамических, статических и синтетических сцен, чтобы повысить управляемость движения. Эксперименты показывают, что Go-with-the-Track достигает превосходного контроля движения и эталонов в одной модели и открывает новые возможности: генерация видео с условием на несколько эталонов и композитингом на основе точечных треков, а также управление камерой как для статических, так и для динамических сцен. Страница проекта: https://eyeline-labs.github.io/Go-with-the-Track/
Оптимизация состава данных для предобучения является ключевым фактором обобщающей способности больших языковых моделей (LLM). Хотя динамическое смешивание превосходит статические стратегии за счёт учёта эволюции динамики обучения, существующие методы не позволяют одновременно обеспечить вычислительную эффективность, эффективность использования выборок и структурную гибкость для разнообразных конвейеров. Мы представляем метод Actor--Critic Online Data Mixing (AC-ODM), который подходит к смешиванию данных с позиции обучения с подкреплением, используя параметризованную политику. Теоретически мы доказываем, что эта политика действует как динамическая линейная суррогатная функция, максимизирующая конструктивную интерференцию градиентов. Для повышения практической гибкости AC-ODM поддерживает два режима работы: (i) прокси-режим для фиксированных, заранее подготовленных корпусов, когда политика, обученная на малой модели, переносится на более крупную целевую; и (ii) непрокси-режим для сквозного обучения с нуля без априорных данных. Эмпирически AC-ODM значительно превосходит предыдущие методы по скорости сходимости и точности на последующих задачах для различных архитектур. На модели Pythia-1B он достигает оптимальной перплексии на валидации, используя до 66% меньше шагов обучения, чем конкурентоспособные базовые методы, обеспечивая относительное улучшение точности MMLU на 27,5% и показатель pass@1 на HumanEval в 2,23 раза выше, при этом затрачивая практически пренебрежимо малое (0,4%) дополнительное время на шаг и лишь 2% дополнительной памяти. Код доступен по адресу https://github.com/DANG-ai/AC-ODM.
По мере того как беспилотные автомобили продолжают распространяться на международном уровне и используют мультимодальные системы, такие как VLM, в качестве когнитивной основы для своих моделей действий, насколько хорошо эти системы смогут обобщаться в новых условиях, особенно в сценариях с выбросами за пределы распределения (OOD) в новых географических регионах? В данной работе мы исследуем этот открытый вопрос, проводя полнофакторный анализ с участием водителей из Лимы, водителей из Нью-Йорка и VLM, демонстрируя им видеозаписи с приборных камер, собранные в Лиме и Нью-Йорке, и задавая им различные вопросы в рамках парадигмы визуального ответа на вопросы (VQA). В частности, мы выбрали эти два города, так как они представляют собой чрезвычайно сложные места для вождения, где в настоящее время не работает ни одна компания по производству беспилотных автомобилей, и задаем вопросы, охватывающие четыре категории: фактические, рейтинговые, контрфактические и логические. Мы обнаружили, что люди и VLM расходятся в своих ответах, хотя это зависит от типа задаваемых вопросов, и что люди отвечают одинаково независимо от того, откуда они родом (Лима/Нью-Йорк). К нашему удивлению, мы не обнаружили сильного различия в ответах (людей или VLM), обусловленного географией, вероятно, из-за их высокой выбросности за пределы распределения. Наш набор данных доступен по адресу: https://huggingface.co/datasets/Artificio/robusto-2
Мы представляем ShotcreteDepth — бимодальный набор данных из строительной области, который охватывает как активный процесс торкретирования, так и общие строительные среды. Набор данных включает стереоизображения RGB и облака точек LiDAR, полученные в суровых реальных условиях, включая высокую мутность и плохое освещение. Такие условия негативно влияют на измерения сенсоров, приводя к неполным и зашумленным наблюдениям, что создает значительные трудности для систем восприятия в автономных приложениях. Вместе с набором данных мы выпускаем легковесный инструмент аннотирования, предназначенный для эффективной по времени разметки облаков точек LiDAR. ShotcreteDepth состоит из 11 252 временно синхронизированных образцов данных, из которых 220 аннотированы для целей оценки. Набор данных поддерживает исследования в области стереосопоставления, восстановления глубины и оценки глубины в условиях, которые точно отражают эксплуатационные сложности промышленных объектов. Репозиторий проекта: https://github.com/dtu-pas/shotcrete-depth
Мы описываем наше участие в треке эффективности (efficiency track) академического гранд-челленджа «Text-to-Music» (ATTM) на конференции ICME 2026. Помимо предусмотренных протоколом соревнования метрик FAD‑CLAP и CLAP score, мы добавляем обученную награду за предпочтения человека от системы TuneJury — двойного попарного ранжировщика, обученного на открытых наборах данных о музыкальных предпочтениях. Эта награда служит как сигналом обусловливания на этапе обучения, так и критерием отбора сэмплов. Пайплайн объединяет пять инженерных решений на основе базовой модели FluxAudio‑S с 120 миллионами параметров, четыре из которых применяются на этапе обучения и одно — на этапе инференса: (i) обусловливание наградой во время обучения, которое также выступает в качестве оси CFG на этапе инференса; (ii) перебор пяти архитектур обусловливания оценками, где при обучении и инференсе используются разные варианты; (iii) экспертная итерация на верхнем дециле; (iv) короткий проход тонкой настройки на предпочтениях (CRPO) для выравнивания аудио и текста; (v) постобработка на этапе инференса с помощью совместного CFG, разделения источников и нормализации громкости. Покомпонентный анализ на 100 промптах из датасета Song Describer показывает, что обусловливание наградой во время обучения является функциональной осью обусловливания, экспертная итерация — основным источником улучшений, проход тонкой настройки на предпочтениях добавляет лишь шумоподобный прирост, а скаляр оценок на этапе инференса уже насыщен к концу цепочки.
Большие языковые модели (LLM) все чаще применяются для поддержки разработки программного обеспечения, однако их практическая полезность в условиях прикладной разработки игр остается малоизученной, особенно когда сгенерированный код необходимо интегрировать в существующую игровую программную систему. В данной статье представлено разведочное эмпирическое тематическое исследование GPT-4o в контексте кастомного бесконечного раннера на Python/Pygame. Исследование рассматривает шесть выбранных задач разработки: три задачи локального рефакторинга и три задачи, связанные с генерацией игровых механик. Полученные реализации были оценены с помощью программных метрик, модульных тестов и ручного тестирования игрового процесса. В данном тематическом исследовании все три выбранные задачи рефакторинга были успешно выполнены с функциональной точки зрения, тогда как только одна из трех задач генерации игровых механик привела к корректно интегрированной функции. Полученные результаты позволяют предположить, что в данном контексте GPT-4o справлялась с локальными преобразованиями более надежно, чем с задачами, требующими новых игровых взаимодействий между несколькими существующими системами. Учитывая разведочный характер единичного тематического исследования, эти результаты следует интерпретировать скорее как ориентировочные наблюдения, а не как обобщаемые свидетельства производительности модели на уровне категорий. В целом, статья предлагает прозрачный отчет на основе кейса о возможностях и ограничениях LLM-ассистированного рефакторинга и генерации игровых механик в существующей игровой программной системе.
По мере расширения городских территорий автоматический мониторинг парковок становится необходимым для эффективных и устойчивых городов. В данной работе предлагается самообучающийся подход для распознавания занятости парковочных мест, не требующий размеченных образцов с целевой парковки. Основываясь на протоколе самообучающейся тонкой настройки переноса обучения, предлагаемая стратегия обучения состоит из двух этапов самообучения: сначала на неразмеченных общих данных, а затем на неразмеченных данных, специфичных для целевого объекта, с последующей контролируемой тонкой настройкой с использованием только общих меток парковки. Мы применяем SimCLR с кодировщиком ResNet-50 и оцениваем метод в рамках протокола перекрестной проверки с исключением одного набора данных на трех общедоступных наборах данных: PKLot, CNRPark-EXT и PLds. Мы также вводим двухэтапную стратегию развертывания, при которой изначально развертывается Сильная Общая Модель, за которой следует Специализированная Модель, которая включает неразмеченные изображения, собранные в течение первых N дней развертывания, в самообучающемся режиме. Экспериментальные результаты показывают, что одна только Сильная Общая Модель превосходит контролируемые и самообучающиеся базовые линии, достигая средней точности 97,2%, которая дополнительно улучшается до 97,8% при использовании предложенной двухэтапной стратегии. Эти результаты демонстрируют, что самообучающееся обучение обеспечивает масштабируемое и эффективное с точки зрения разметки решение для мониторинга занятости парковок в реальных условиях. Наши обученные модели и исходный код общедоступны по адресу https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition.