Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя крупные языковые модели (LLMs), основанные на рассуждениях, достигли значительных успехов в математике и программировании, их возможности в решении задач, требующих глубоких медицинских знаний, остаются недостаточно изученными. Для решения этой проблемы мы представляем ReasonMed — крупнейший набор данных для медицинских рассуждений, включающий 370 тысяч высококачественных примеров, отобранных из 1,7 миллиона начальных путей рассуждений, сгенерированных различными LLMs. ReasonMed создан с использованием многоагентного процесса проверки и уточнения, в рамках которого мы разработали Error Refiner для улучшения путей рассуждений путем выявления и исправления ошибок, отмеченных верификатором. Используя ReasonMed, мы систематически исследуем лучшие практики для обучения моделей медицинских рассуждений и обнаруживаем, что сочетание детализированных цепочек рассуждений (Chain-of-Thought, CoT) с краткими итоговыми ответами является наиболее эффективной стратегией тонкой настройки. На основе этой стратегии мы обучаем модель ReasonMed-7B, которая устанавливает новый стандарт для моделей с менее чем 10 миллиардами параметров, превосходя предыдущий лучший результат на 4,17% и даже опережая LLaMA3.1-70B на тесте PubMedQA на 4,60%.
Создание крупномасштабных наборов данных для задачи разрешения проблем на GitHub имеет решающее значение как для обучения, так и для оценки возможностей крупных языковых моделей (LLM) в области программной инженерии. Однако традиционный процесс создания таких эталонных тестов известен своей сложностью и трудоемкостью, особенно на этапах настройки сред оценки, проверки результатов тестов и валидации экземпляров задач. В данной статье мы предлагаем SWE-Factory — автоматизированный конвейер, разработанный для решения этих проблем. Наш конвейер интегрирует три ключевых автоматизированных компонента. Во-первых, мы представляем SWE-Builder — мультиагентную систему, которая автоматизирует создание среды оценки. Она использует четыре специализированных агента, работающих в совместном итеративном цикле, и применяет пул памяти среды для повышения эффективности. Во-вторых, мы вводим стандартизированный метод оценки на основе кодов завершения, который устраняет необходимость ручного написания пользовательских парсеров. Наконец, мы автоматизируем процесс валидации fail2pass, используя эти надежные сигналы кодов завершения. Эксперименты на 671 проблеме для четырех языков программирования показывают, что наш конвейер может эффективно создавать валидные экземпляры задач; например, с использованием GPT-4.1-mini наш SWE-Builder создает 269 валидных экземпляров при стоимости 0,045 за экземпляр, а с Gemini-2.5-flash достигает сопоставимой производительности при минимальной стоимости 0,024 за экземпляр. Мы также демонстрируем, что наша оценка на основе кодов завершения достигает 100% точности по сравнению с ручной проверкой, а автоматизированная валидация fail2pass достигает точности 0,92 и полноты 1,00. Мы надеемся, что наш автоматизированный конвейер ускорит сбор крупномасштабных, высококачественных наборов данных для разрешения проблем на GitHub как для обучения, так и для оценки. Наш код и наборы данных доступны по адресу https://github.com/DeepSoftwareAnalytics/swe-factory.
Восстановление изображений направлено на восстановление деградированных изображений. Однако существующие методы восстановления на основе диффузии, несмотря на значительные успехи в восстановлении естественных изображений, часто сталкиваются с трудностями в точном восстановлении текстовых областей в деградированных изображениях. Эти методы часто генерируют правдоподобные, но некорректные текстовые паттерны, явление, которое мы называем галлюцинацией текста и изображения. В данной статье мы представляем Text-Aware Image Restoration (TAIR), новую задачу восстановления, которая требует одновременного восстановления визуального содержимого и текстовой точности. Для решения этой задачи мы представляем SA-Text, крупномасштабный бенчмарк из 100K высококачественных сценовых изображений, плотно аннотированных разнообразными и сложными текстовыми элементами. Кроме того, мы предлагаем многозадачный диффузионный фреймворк, называемый TeReDiff, который интегрирует внутренние особенности моделей диффузии в модуль обнаружения текста, позволяя обоим компонентам извлекать выгоду из совместного обучения. Это позволяет извлекать богатые текстовые представления, которые используются в качестве подсказок на последующих этапах шумоподавления. Многочисленные эксперименты демонстрируют, что наш подход стабильно превосходит современные методы восстановления, достигая значительных улучшений в точности распознавания текста. См. нашу страницу проекта: https://cvlab-kaist.github.io/TAIR/
Мы представляем VRBench — первый эталонный набор длинных повествовательных видео, разработанный для оценки способности крупных моделей к многошаговому рассуждению, устраняя ограничения существующих методов оценки, которые игнорируют временное рассуждение и процедурную валидность. Набор включает 1010 длинных видео (средняя продолжительность — 1,6 часа), а также 9468 пар вопросов и ответов с многошаговыми рассуждениями, размеченных вручную, и 30 292 шага рассуждений с временными метками. Эти видео отобраны с помощью многоэтапного процесса фильтрации, включающего экспертный перекрестный анализ для обеспечения сюжетной согласованности. Мы разработали фреймворк для совместной работы человека и ИИ, который генерирует согласованные цепочки рассуждений, каждая из которых требует нескольких временно закрепленных шагов, охватывающих семь типов (например, атрибуция событий, неявный вывод). VRBench предлагает многофазный конвейер оценки, который проверяет модели как на уровне результатов, так и на уровне процесса. Помимо тестов с множественным выбором для финальных результатов, мы предлагаем метрику оценки на уровне прогресса, управляемую LLM, чтобы всесторонне оценить качество цепочки рассуждений с нескольких измерений. Проведя масштабные оценки 12 LLM и 16 VLM на VRBench, мы выполнили детальный анализ и предоставили ценные инсайты, способствующие развитию области многошагового рассуждения.
Несмотря на быстрый прогресс в моделях генерации видео, создание связных повествовательных видеороликов, охватывающих несколько сцен и персонажей, остается сложной задачей. Современные методы часто жестко преобразуют предварительно сгенерированные ключевые кадры в клипы фиксированной длины, что приводит к разрозненным повествованиям и проблемам с темпом. Более того, присущая моделям генерации видео нестабильность означает, что даже один низкокачественный клип может значительно ухудшить логическую связность и визуальную непрерывность всей выходной анимации. Чтобы преодолеть эти препятствия, мы представляем AniMaker — многоагентный фреймворк, который обеспечивает эффективную генерацию множества кандидатов клипов и их выбор с учетом повествовательной связности, создавая глобально согласованную и сюжетно-логичную анимацию исключительно на основе текстового ввода. Фреймворк структурирован вокруг специализированных агентов, включая Режиссерского агента для создания раскадровки, Фотографического агента для генерации видеоклипов, Рецензентского агента для оценки и Пост-продакшн агента для редактирования и озвучки. Ключевыми техническими компонентами AniMaker являются MCTS-Gen в Фотографическом агенте — эффективная стратегия, вдохновленная методом Монте-Карло для деревьев поиска (MCTS), которая интеллектуально исследует пространство кандидатов для генерации клипов с высоким потенциалом, оптимизируя использование ресурсов; и AniEval в Рецензентском агенте — первый фреймворк, специально разработанный для оценки многосценовой анимации, который оценивает такие важные аспекты, как согласованность на уровне сюжета, завершенность действий и специфические особенности анимации, рассматривая каждый клип в контексте предшествующих и последующих клипов. Эксперименты показывают, что AniMaker достигает превосходного качества, измеряемого популярными метриками, включая VBench и наш предложенный фреймворк AniEval, при этом значительно повышая эффективность генерации множества кандидатов, приближая анимацию, созданную с помощью ИИ, к производственным стандартам.
Мы представляем Magistral, первую модель для рассуждений от Mistral и наш собственный масштабируемый конвейер обучения с подкреплением (RL). Вместо использования существующих реализаций и данных RL, полученных из предыдущих моделей, мы следуем подходу с нуля, полагаясь исключительно на наши собственные модели и инфраструктуру. В частности, мы демонстрируем стек, который позволил нам исследовать пределы чистого RL-обучения больших языковых моделей (LLM), представляем простой метод для принудительного задания языка рассуждений модели и показываем, что RL на текстовых данных сохраняет большую часть возможностей начального чекпоинта. Мы обнаруживаем, что RL на текстах сохраняет или улучшает мультимодальное понимание, следование инструкциям и вызов функций. Мы представляем Magistral Medium, обученную для рассуждений на основе Mistral Medium 3 исключительно с помощью RL, а также открываем исходный код Magistral Small (Apache 2.0), которая дополнительно включает данные холодного старта из Magistral Medium.
Дискретные аудиотокены представляют собой компактные представления, которые направлены на сохранение перцептивного качества, фонетического содержания и характеристик говорящего, обеспечивая при этом эффективное хранение и вывод данных, а также конкурентоспособную производительность в различных последующих задачах. Они предоставляют практическую альтернативу непрерывным признакам, позволяя интегрировать речь и аудио в современные крупные языковые модели (LLM). По мере роста интереса к обработке аудио на основе токенов появились различные методы токенизации, и несколько обзоров рассмотрели последние достижения в этой области. Однако существующие исследования часто сосредоточены на конкретных областях или задачах и не предлагают единого сравнения на различных тестовых наборах. В данной статье представлен систематический обзор и сравнительный анализ дискретных аудиотокенизаторов, охватывающий три области: речь, музыку и общее аудио. Мы предлагаем таксономию подходов к токенизации, основанную на архитектуре кодировщик-декодировщик, методах квантования, парадигме обучения, потоковой обработке и областях применения. Мы оцениваем токенизаторы на нескольких тестовых наборах по параметрам восстановления, производительности в последующих задачах и акустического языкового моделирования, а также анализируем компромиссы с помощью контролируемых исследований абляции. Наши результаты подчеркивают ключевые ограничения, практические аспекты и открытые вызовы, предоставляя инсайты и рекомендации для будущих исследований в этой быстро развивающейся области. Для получения дополнительной информации, включая основные результаты и базу данных токенизаторов, посетите наш веб-сайт: https://poonehmousavi.github.io/dates-website/.
Мы представляем~Domain2Vec, новый подход, который разлагает любой набор данных на линейную комбинацию нескольких метадоменов — нового концепта, разработанного для захвата ключевых базовых характеристик наборов данных. Domain2Vec поддерживает словарь метадоменов и использует классификатор для разложения любого заданного набора данных в вектор домена, который соответствует распределению по этому словарю. Эти векторы доменов позволяют идентифицировать оптимальную смесь данных для предварительного обучения языковой модели (LM) без необходимости обучения в рамках \textbf{Предположения о Согласовании Распределений} (DA^{2}), которое предполагает, что при лучшем согласовании распределений данных обучающего и валидационного наборов достигается меньшая ошибка на валидации. Более того, Domain2Vec может быть легко интегрирован в предыдущие работы для моделирования взаимосвязи между векторами доменов и производительностью LM, значительно повышая эффективность и масштабируемость предыдущих методов. Многочисленные эксперименты демонстрируют, что Domain2Vec помогает найти смесь данных, которая улучшает производительность на последующих задачах с минимальными вычислительными затратами. В частности, Domain2Vec достигает той же ошибки на валидации на Pile-CC, используя только 51,5% вычислений, необходимых при обучении на исходной смеси данных набора The Pile. При эквивалентном вычислительном бюджете Domain2Vec улучшает производительность на последующих задачах в среднем на 2,83%.
В последнее время агенты, основанные на мультимодальных больших языковых моделях (MLLMs), достигли значительного прогресса в различных областях. Однако создание универсального агента с такими возможностями, как восприятие, планирование, действие, заземление и рефлексия, в открытых мирах, таких как Minecraft, остается сложной задачей: недостаток специфичных для домена данных, интерференция между разнородными задачами и визуальное разнообразие в открытых мирах. В данной статье мы решаем эти проблемы с помощью трех ключевых вкладов. 1) Мы предлагаем конвейер генерации данных, усиленный знаниями, для предоставления масштабируемых и качественных обучающих данных для разработки агентов. 2) Для снижения интерференции между разнородными задачами мы вводим архитектуру Mixture-of-Experts (MoE) с маршрутизацией на уровне задач. 3) Мы разрабатываем подход Multimodal Reasoning-Augmented Reinforcement Learning для улучшения способности агента к рассуждению в условиях визуального разнообразия в Minecraft. На основе этих инноваций мы представляем Optimus-3 — универсального агента для Minecraft. Результаты многочисленных экспериментов показывают, что Optimus-3 превосходит как универсальные мультимодальные большие языковые модели, так и существующие передовые агенты в широком спектре задач в среде Minecraft. Страница проекта: https://cybertronagent.github.io/Optimus-3.github.io/
Создание эстетичных постеров представляет собой более сложную задачу, чем генерация простых дизайнерских изображений: оно требует не только точного рендеринга текста, но и гармоничного сочетания абстрактного художественного содержания, выразительных композиций и общей стилистической целостности. Для решения этой проблемы мы предлагаем PosterCraft — унифицированную структуру, которая отказывается от модульных подходов и жестких, заранее заданных макетов, позволяя модели свободно исследовать согласованные и визуально привлекательные композиции. PosterCraft использует тщательно разработанный каскадный процесс для оптимизации создания высокоэстетичных постеров: (i) крупномасштабная оптимизация рендеринга текста на основе нового набора данных Text-Render-2M; (ii) регионально-ориентированное обучение с учителем на HQ-Poster100K; (iii) усиление эстетики текста через оптимизацию предпочтений best-of-n; и (iv) совместная доработка с использованием обратной связи на основе визуальных и текстовых данных. Каждый этап поддерживается полностью автоматизированным процессом создания данных, адаптированным под конкретные задачи, что обеспечивает надежное обучение без сложных архитектурных изменений. В ходе многочисленных экспериментов PosterCraft значительно превзошел открытые базовые модели по точности рендеринга, согласованности макета и общей визуальной привлекательности, приближаясь к качеству современных коммерческих систем. Наш код, модели и наборы данных доступны на странице проекта: https://ephemeral182.github.io/PosterCraft.
Насколько экономически эффективно можно стимулировать сильные рассуждения в языковых моделях, используя их внутренние представления? Мы отвечаем на этот вопрос с помощью Resa — семейства моделей для рассуждений объемом 1,5 млрд параметров, обученных с использованием нового и эффективного метода настройки разреженных автокодировщиков (SAE-Tuning). Этот метод сначала обучает SAE для извлечения способностей к рассуждению из исходной модели, а затем использует обученный SAE для управления стандартным процессом тонкой настройки с учителем, чтобы стимулировать такие способности в целевой модели, используя только проверенные данные вопросов и ответов без следов рассуждений. Примечательно, что при применении к определенным базовым моделям перед дальнейшей пост-обучением с подкреплением (RL) SAE-Tuning сохраняет более 97% производительности рассуждений по сравнению с RL-обученными аналогами, при этом сокращая затраты на обучение более чем в 2000 раз (до примерно \$1) и время обучения более чем в 450 раз (до около 20 минут). Более того, при применении к моделям, слегка обученным с подкреплением (например, в течение 1 часа на 2 GPU), он обеспечивает производительность рассуждений, такую как 43,33% Pass@1 на AIME24 и 90% Pass@1 на AMC23, при дополнительных затратах всего около \$1. Удивительно, но способности к рассуждениям, извлеченные с помощью SAE, потенциально являются как обобщаемыми, так и модульными. Обобщаемость означает, что способности, извлеченные из одного набора данных, все еще повышают производительность на более крупном и пересекающемся корпусе. Модульность означает, что способности, извлеченные из Qwen или Qwen-Math, могут быть присоединены к модели R1-Distill во время тестирования без какого-либо переобучения и дают сопоставимые улучшения. Обширные эксперименты подтверждают эти результаты, и все материалы полностью открыты для использования.
Мы представляем Ming-Omni, унифицированную мультимодальную модель, способную обрабатывать изображения, текст, аудио и видео, демонстрируя при этом высокую эффективность как в генерации речи, так и изображений. Ming-Omni использует специализированные энкодеры для извлечения токенов из различных модальностей, которые затем обрабатываются архитектурой Ling, основанной на подходе Mixture of Experts (MoE) и оснащенной новыми маршрутизаторами, специфичными для каждой модальности. Такая конструкция позволяет одной модели эффективно обрабатывать и объединять мультимодальные входные данные в рамках единой структуры, что способствует выполнению разнообразных задач без необходимости использования отдельных моделей, специфичной донастройки для каждой задачи или перепроектирования архитектуры. Важно отметить, что Ming-Omni выходит за рамки традиционных мультимодальных моделей, поддерживая генерацию аудио и изображений. Это достигается за счет интеграции продвинутого аудиодекодера для создания естественно звучащей речи и Ming-Lite-Uni для генерации высококачественных изображений, что также позволяет модели участвовать в контекстно-зависимых диалогах, выполнять преобразование текста в речь и осуществлять разнообразное редактирование изображений. Наши экспериментальные результаты демонстрируют, что Ming-Omni предлагает мощное решение для унифицированного восприятия и генерации во всех модальностях. Примечательно, что предложенная нами Ming-Omni является первой открытой моделью, которая, насколько нам известно, соответствует GPT-4o по поддержке модальностей, и мы публикуем весь код и веса модели, чтобы стимулировать дальнейшие исследования и разработки в сообществе.
Агенты на основе больших языковых моделей (LLM) продемонстрировали значительный потенциал в решении реальных задач науки о данных. LLM-управляемые агенты для науки о данных обещают автоматизировать весь конвейер машинного обучения, однако их эффективность в реальных условиях остается ограниченной. Существующие фреймворки зависят от жестких, заранее определенных рабочих процессов и негибких стратегий написания кода; как следствие, они преуспевают только в относительно простых, классических задачах и не способны учитывать эмпирический опыт, который привносят специалисты-люди в сложные, инновационные задачи. В данной работе мы представляем AutoMind — адаптивный и осведомленный фреймворк для LLM-агентов, который преодолевает эти недостатки благодаря трем ключевым усовершенствованиям: (1) курируемая база экспертных знаний, которая закрепляет агента в области экспертных знаний, (2) алгоритм поиска по дереву с использованием агентских знаний, который стратегически исследует возможные решения, и (3) самоадаптивная стратегия написания кода, которая динамически адаптирует генерацию кода к сложности задачи. Оценки на двух автоматизированных бенчмарках для науки о данных демонстрируют, что AutoMind обеспечивает превосходную производительность по сравнению с современными базовыми методами. Дополнительные анализы подтверждают благоприятную эффективность, производительность и качество решений, подчеркивая AutoMind как эффективный и надежный шаг к полностью автоматизированной науке о данных.
Понимание длинных видео (Long Video Understanding, LVU) представляет собой значительную проблему для современных мультимодальных больших языковых моделей (MLLMs) из-за присущей задаче сложности и ограничений контекстного окна. Широко распространено мнение, что решение задач LVU требует базовых MLLMs с расширенными контекстными окнами, мощными возможностями визуального восприятия и глубокими знаниями в предметной области. В данной работе мы оспариваем это распространенное убеждение, представляя VideoDeepResearch — новый агентный фреймворк для понимания длинных видео. Наш подход основывается исключительно на текстовой модели большого рассуждения (LRM), объединенной с модульным мультимодальным инструментарием, включающим мультимодальные ретриверы и визуальные воспринимающие модули, все из которых доступны на практике. Для каждой задачи LVU система формирует стратегию решения проблемы через рассуждение, избирательно обращаясь к необходимому видеоконтенту и используя инструменты. Мы провели обширные эксперименты на популярных бенчмарках LVU, включая MLVU, Video-MME и LVBench. Наши результаты демонстрируют, что VideoDeepResearch достигает значительных улучшений по сравнению с существующими базовыми MLLMs, превосходя предыдущие достижения на 9,6%, 6,6% и 3,9% на MLVU (тест), LVBench и LongVideoBench соответственно. Эти результаты подчеркивают потенциал агентных систем в преодолении ключевых проблем в задачах LVU.
Графический дизайн играет ключевую роль как в коммерческих, так и в личных контекстах, однако создание высококачественных, редактируемых и эстетически привлекательных графических композиций остается трудоемкой и требующей навыков задачей, особенно для начинающих. Современные инструменты на основе искусственного интеллекта автоматизируют части рабочего процесса, но сталкиваются с трудностями в точном включении предоставленных пользователем ресурсов, сохранении редактируемости и достижении профессионального визуального уровня. Коммерческие системы, такие как Canva Magic Design, полагаются на обширные библиотеки шаблонов, которые сложно воспроизвести. В данной статье мы представляем CreatiPoster — фреймворк, который генерирует редактируемые многослойные композиции на основе необязательных инструкций на естественном языке или предоставленных ресурсов. Протокольная модель, RGBA крупная мультимодальная модель, сначала создает JSON-спецификацию, детализирующую каждый слой (текст или ресурс) с точным макетом, иерархией, содержанием и стилем, а также кратким описанием фона. Затем условная модель фона синтезирует согласованный фон, учитывая эти отрисованные передние слои. Мы создаем эталонный набор с автоматизированными метриками для генерации графического дизайна и показываем, что CreatiPoster превосходит ведущие подходы с открытым исходным кодом и проприетарные коммерческие системы. Для стимулирования дальнейших исследований мы публикуем свободный от авторских прав корпус из 100 000 многослойных дизайнов. CreatiPoster поддерживает разнообразные приложения, такие как редактирование холста, наложение текста, адаптивное изменение размера, многоязычную адаптацию и анимированные постеры, способствуя демократизации графического дизайна с помощью ИИ. Домашняя страница проекта: https://github.com/graphic-design-ai/creatiposter.
Крупные языковые модели (LLM) всё чаще применяются для автоматизированного обнаружения вредоносного контента, помогая модераторам выявлять нарушения политик и повышая общую эффективность и точность проверки контента. Однако существующие ресурсы для обнаружения вредоносного контента в основном сосредоточены на английском языке, в то время как китайские наборы данных остаются редкими и часто ограниченными по охвату. Мы представляем всеобъемлющий, профессионально аннотированный бенчмарк для обнаружения вредоносного контента на китайском языке, который охватывает шесть репрезентативных категорий и полностью построен на реальных данных. Наш процесс аннотации также позволяет создать базу знаний, содержащую явные экспертные знания для помощи LLM в обнаружении вредоносного контента на китайском языке. Кроме того, мы предлагаем базовый метод, усиленный знаниями, который интегрирует как аннотированные человеком правила, так и неявные знания из крупных языковых моделей, что позволяет более компактным моделям достигать производительности, сопоставимой с современными LLM. Код и данные доступны по адресу https://github.com/zjunlp/ChineseHarm-bench.
Последние достижения в области больших языковых моделей (LLM) и их мультимодальных аналогов вызвали значительный интерес к разработке веб-агентов — систем искусственного интеллекта, способных автономно взаимодействовать с веб-средой и выполнять задачи. Несмотря на огромный потенциал для автоматизации сложных веб-взаимодействий, современные подходы сталкиваются с существенными трудностями из-за фундаментального несоответствия между интерфейсами, разработанными для людей, и возможностями LLM. Существующие методы испытывают сложности с обработкой сложных веб-входных данных, будь то анализ огромных DOM-деревьев, использование скриншотов, дополненных дополнительной информацией, или полный обход пользовательского интерфейса через взаимодействие с API. В данной позиционной статье предлагается смена парадигмы в исследованиях веб-агентов: вместо того чтобы заставлять веб-агенты адаптироваться к интерфейсам, созданным для людей, следует разработать новую парадигму взаимодействия, оптимизированную специально для агентских возможностей. С этой целью мы вводим концепцию Агентского Веб-Интерфейса (AWI) — интерфейса, специально разработанного для навигации агентов по веб-сайтам. Мы формулируем шесть руководящих принципов проектирования AWI, подчеркивая безопасность, эффективность и стандартизацию, чтобы учесть интересы всех ключевых заинтересованных сторон. Этот пересмотр направлен на преодоление фундаментальных ограничений существующих интерфейсов, прокладывая путь к более эффективному, надежному и прозрачному проектированию веб-агентов, что станет результатом совместных усилий широкого сообщества машинного обучения.
Последние достижения в области мультимодальных базовых моделей, объединяющих понимание и генерацию изображений, открыли новые перспективы для решения широкого спектра задач на стыке зрения и языка в рамках единой архитектуры. Несмотря на прогресс, существующие унифицированные модели, как правило, требуют длительного предварительного обучения и не достигают уровня производительности, сравнимого с моделями, специализированными для каждой задачи. Кроме того, многие из этих моделей страдают от низкой скорости генерации изображений, что ограничивает их практическое применение в условиях реального времени или при ограниченных ресурсах. В данной работе мы предлагаем Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) — новую и эффективную архитектуру, которая объединяет понимание и генерацию изображений в рамках единой мультимодальной модели. LaTtE-Flow основывается на мощных предобученных моделях для задач зрения и языка (VLMs), наследуя их сильные мультимодальные способности, и расширяет их с помощью новой архитектуры на основе Layerwise Timestep Experts для эффективной генерации изображений. LaTtE-Flow распределяет процесс flow-matching между специализированными группами слоев Transformer, каждая из которых отвечает за отдельный подмножество временных шагов. Такой подход значительно повышает эффективность выборки, активируя только небольшое подмножество слоев на каждом шаге выборки. Для дальнейшего улучшения производительности мы предлагаем механизм Timestep-Conditioned Residual Attention, обеспечивающий эффективное повторное использование информации между слоями. Эксперименты показывают, что LaTtE-Flow демонстрирует высокую производительность на задачах мультимодального понимания, при этом достигая конкурентоспособного качества генерации изображений с ускорением вывода примерно в 6 раз по сравнению с современными унифицированными мультимодальными моделями.
По мере того как тонкая настройка (fine-tuning, FT) становится все менее практичной в условиях масштабирования, зондирование (probing) становится предпочтительным протоколом оценки для самообучения (self-supervised learning, SSL). Однако стандартное линейное зондирование (linear probing, LP) неадекватно отражает потенциал моделей, обученных с использованием маскированного моделирования изображений (Masked Image Modeling, MIM), из-за распределенного характера токенов патчей. Это мотивирует необходимость внимательного зондирования (attentive probing), альтернативного подхода, который использует внимание для избирательной агрегации признаков на уровне патчей. Несмотря на растущее применение, внимательное зондирование остается недостаточно изученным, а существующие методы страдают от избыточной параметризации и низкой вычислительной эффективности. В данной работе мы пересматриваем внимательное зондирование через призму компромисса между точностью и эффективностью. Мы проводим систематическое исследование существующих методов, анализируя их механизмы и сравнивая их производительность. Мы представляем эффективное зондирование (efficient probing, EP), механизм кросс-внимания с множественными запросами, который устраняет избыточные проекции, сокращает количество обучаемых параметров и обеспечивает до 10-кратного ускорения по сравнению с традиционным многоголовым вниманием. Несмотря на свою простоту, EP превосходит LP и предыдущие подходы к внимательному зондированию на семи тестовых наборах, демонстрирует хорошую обобщаемость за пределами MIM для различных парадигм предварительного обучения, создает интерпретируемые карты внимания и достигает значительных улучшений в условиях малого количества данных и послойного анализа. Код доступен по адресу https://github.com/billpsomas/efficient-probing.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало ключевой техникой для улучшения больших языковых моделей (LLM), где инженерия верификации играет центральную роль. Однако лучшие практики RL для выполнения инструкций остаются недостаточно изученными. В данной работе мы исследуем проблему верификации в RL для выполнения инструкций и предлагаем VerIF — метод верификации, который сочетает проверку на основе правил с верификацией на основе LLM с использованием крупной модели рассуждений (например, QwQ-32B). Для поддержки этого подхода мы создаем высококачественный набор данных для выполнения инструкций, VerInstruct, содержащий около 22 000 примеров с соответствующими сигналами верификации. Мы применяем обучение с подкреплением с использованием VerIF к двум моделям, достигая значительных улучшений на нескольких репрезентативных тестах выполнения инструкций. Обученные модели демонстрируют наилучшие результаты среди моделей сопоставимого размера и хорошо обобщаются на неизвестные ограничения. Мы также наблюдаем, что их общие способности остаются неизменными, что позволяет предположить, что RL с VerIF может быть интегрирован в существующие рецепты RL для повышения общей производительности модели. Мы опубликовали наши наборы данных, код и модели для содействия будущим исследованиям на https://github.com/THU-KEG/VerIF.
Shojaee et al. (2025) сообщают, что крупные модели рассуждений (LRMs) демонстрируют «коллапс точности» на задачах планирования, превышающих определённые пороги сложности. Мы показываем, что их результаты в основном отражают ограничения экспериментального дизайна, а не фундаментальные сбои в рассуждениях. Наш анализ выявляет три ключевые проблемы: (1) эксперименты с задачей «Ханойская башня» систематически превышают ограничения на количество выходных токенов моделей в точках, указанных как сбои, причём модели явно признают эти ограничения в своих выводах; (2) автоматизированная система оценки авторов не различает сбои в рассуждениях и практические ограничения, что приводит к ошибочной классификации возможностей моделей; (3) что наиболее тревожно, их тесты на задачу «Переправа через реку» включают математически невозможные случаи для N > 5 из-за недостаточной вместимости лодки, однако модели оцениваются как сбои за нерешение этих нерешаемых задач. Когда мы контролируем эти экспериментальные артефакты, запрашивая генерацию функций вместо исчерпывающих списков ходов, предварительные эксперименты на нескольких моделях показывают высокую точность на задачах «Ханойской башни», ранее описанных как полные сбои. Эти результаты подчеркивают важность тщательного экспериментального дизайна при оценке способностей ИИ к рассуждениям.
В электронной коммерции и цифровом маркетинге создание высококачественных демонстрационных видео с участием людей и продуктов играет важную роль для эффективной презентации товаров. Однако большинство существующих подходов либо не сохраняют идентичность как людей, так и продуктов, либо не учитывают пространственные взаимоотношения между ними, что приводит к нереалистичным представлениям и неестественным взаимодействиям. Для решения этих проблем мы предлагаем фреймворк на основе Diffusion Transformer (DiT). Наш метод одновременно сохраняет идентичность людей и детали продуктов, такие как логотипы и текстуры, путем внедрения парной информации о человеке и продукте и использования дополнительного механизма маскированного кросс-внимания. Мы применяем 3D-шаблон тела и ограничивающие рамки продуктов для обеспечения точного управления движением, что позволяет интуитивно согласовывать жесты рук с размещением продуктов. Кроме того, структурированное текстовое кодирование используется для включения семантики на уровне категорий, что повышает 3D-согласованность при небольших вращательных изменениях между кадрами. Обучаясь на гибридном наборе данных с использованием стратегий расширения данных, наш подход превосходит современные методы в сохранении целостности идентичности как людей, так и продуктов и в генерации реалистичных демонстрационных движений. Страница проекта: https://submit2025-dream.github.io/DreamActor-H1/.
Масштабное разнообразие данных в виде облаков точек представляет значительные трудности для разработки унифицированных методов обучения представлений в 3D-зрении. В настоящее время существует мало унифицированных 3D-моделей, и ни один из существующих методов предварительного обучения не является одинаково эффективным для облаков точек как на уровне объектов, так и на уровне сцен. В данной статье мы представляем UniPre3D — первый унифицированный метод предварительного обучения, который может быть бесшовно применен к облакам точек любого масштаба и 3D-моделям любой архитектуры. Наш подход предсказывает гауссовы примитивы в качестве задачи предварительного обучения и использует дифференцируемое гауссово размытие для рендеринга изображений, что позволяет обеспечить точное пиксельное управление и сквозную оптимизацию. Для дальнейшего регулирования сложности задачи предварительного обучения и направления внимания модели на геометрические структуры мы интегрируем 2D-признаки из предварительно обученных моделей изображений, чтобы включить хорошо установленные знания о текстурах. Мы подтверждаем универсальную эффективность предложенного метода с помощью обширных экспериментов на различных задачах уровня объектов и сцен, используя разнообразные модели облаков точек в качестве основы. Код доступен по адресу https://github.com/wangzy22/UniPre3D.
Последние достижения в области больших языковых моделей (LLMs) и систем искусственного интеллекта привели к смене парадигмы в проектировании и оптимизации сложных AI-процессов. Благодаря интеграции множества компонентов, составные AI-системы становятся всё более эффективными в выполнении сложных задач. Однако с ростом сложности этих систем возникают новые вызовы, связанные с оптимизацией не только отдельных компонентов, но и их взаимодействий. Хотя традиционные методы оптимизации, такие как тонкая настройка с учителем (SFT) и обучение с подкреплением (RL), остаются основополагающими, появление обратной связи на естественном языке открывает перспективные новые подходы, особенно для оптимизации недифференцируемых систем. В данной статье представлен систематический обзор последних достижений в оптимизации составных AI-систем, охватывающий как численные, так и языковые методы. Мы формализуем понятие оптимизации составных AI-систем, классифицируем существующие методы по нескольким ключевым направлениям и выделяем открытые исследовательские задачи и перспективные направления в этой быстро развивающейся области. Список рассмотренных статей доступен по адресу: https://github.com/MiuLab/AISysOpt-Survey.
Крупные языковые модели произвели революцию в обработке естественного языка, однако обучение с учителем (supervised fine-tuning, SFT) остается вычислительно затратным. В данной работе формально доказывается, что способности, приобретенные с помощью SFT, могут быть аппроксимированы базовой трансформерной моделью с использованием методов вывода, в частности, обучения в контексте (in-context learning, ICL), без изменения параметров модели, при идеализированных предположениях, включая неограниченные вычислительные ресурсы и доступ к набору данных для тонкой настройки. Мы расширяем эти результаты на практические сценарии с ограниченной длиной контекста и частичным доступом к данным. Для задач генерации текста с фиксированной длиной вывода l достаточно наборов данных размером \(O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)\) или, при ограниченном контексте, \(O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right)\), чтобы аппроксимировать поведение тонко настроенной модели для m контекстов с ошибкой \(\varepsilon\), где V — размер словаря, а \(\delta\) — вероятность ошибки. Для линейной классификации достаточно наборов данных размером \(O\left( \frac{d}{\varepsilon} \right)\) или, при фиксированном контексте, \(O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)\), где d — размерность входных данных. Основываясь на тьюринг-полноте трансформеров, эти результаты предоставляют теоретическую основу для ресурсоэффективного развертывания крупных языковых моделей, а практические методы, такие как генерация с использованием извлечения данных, связывают теорию с реальными приложениями.
По мере того как крупные языковые модели (LLM) продвигаются в сторону более человекообразного поведения, а взаимодействие между человеком и ИИ становится повсеместным, формулирование запросов (prompting) стало ключевым компонентом. Однако существует ограниченное концептуальное согласие относительно того, что именно определяет качество запросов на естественном языке. Мы пытаемся ответить на этот вопрос, проведя метаанализ более 150 работ, связанных с формулированием запросов, представленных на ведущих конференциях по NLP и ИИ с 2022 по 2025 год, а также в блогах. Мы предлагаем ориентированную на свойства и человека структуру для оценки качества запросов, включающую 21 свойство, распределенное по шести измерениям. Затем мы исследуем, как существующие работы оценивают их влияние на LLM, выявляя несбалансированную поддержку этих свойств в различных моделях и задачах, а также значительные пробелы в исследованиях. Далее мы анализируем корреляции между свойствами в высококачественных запросах на естественном языке, формулируя рекомендации по их созданию. Эмпирически исследуем улучшение запросов с учетом нескольких свойств в задачах логического рассуждения, отмечая, что улучшение по одному свойству часто оказывает наибольшее влияние. Наконец, мы обнаруживаем, что тонкая настройка моделей на запросах с улучшенными свойствами может привести к созданию более эффективных моделей для рассуждений. Наши результаты закладывают основу для оценки и оптимизации запросов с учетом их свойств, устраняя разрывы в коммуникации между человеком и ИИ и открывая новые направления для исследований в области формулирования запросов.
Растущее внедрение искусственного интеллекта в телекоммуникациях вызвало интерес к способности крупных языковых моделей (LLM) решать специализированные, математически сложные задачи. Хотя последние достижения улучшили производительность LLM в общих математических рассуждениях, их эффективность в узкоспециализированных областях, таких как обработка сигналов, оптимизация сетей и анализ производительности, остается в значительной степени неисследованной. Для устранения этого пробела мы представляем TeleMath — первый эталонный набор данных, специально разработанный для оценки производительности LLM в решении математических задач с численными решениями в области телекоммуникаций. TeleMath включает 500 пар вопрос-ответ (QnA), охватывающих широкий спектр тем в телекоммуникационной сфере. В данной статье описывается предложенный процесс генерации QnA, начиная с отобранного набора задач, созданных экспертами в предметной области. Оценка широкого спектра открытых LLM показывает, что наилучшие результаты на TeleMath демонстрируют недавние модели, специально разработанные для математических или логических рассуждений. В то же время универсальные модели, даже с большим количеством параметров, часто испытывают трудности с этими задачами. Мы опубликовали набор данных и код для оценки, чтобы упростить воспроизводимость результатов и поддержать будущие исследования.
Методы "забывания" в больших языковых моделях (LLM) направлены на удаление или подавление нежелательных знаний внутри модели, что открывает перспективы для контроля над вредоносной или конфиденциальной информацией с целью предотвращения её неправомерного использования. Однако последние исследования подчеркивают ограниченную эффективность этих методов в реальных сценариях, что затрудняет их практическое применение. В данном исследовании мы выявляем распространённую проблему, лежащую в основе многих неудач на последующих этапах: эффективность существующих методов "забывания" сильно зависит от формы обучающих выборок и часто не способна обобщаться на альтернативные выражения одного и того же знания. Мы формально определяем эту проблему как "Форма-зависимую предвзятость" и систематически исследуем её конкретные проявления в различных задачах. Для количественной оценки её распространённости и поддержки будущих исследований мы представляем ORT — новый эталонный тест, предназначенный для оценки устойчивости методов "забывания" к вариациям в выражении знаний. Результаты показывают, что "Форма-зависимая предвзятость" является широко распространённой и серьёзной проблемой среди современных методов. Мы утверждаем, что "забывание" в LLM должно быть независимым от формы, чтобы справляться с бесконечным разнообразием задач, встречающихся в реальных сценариях, критичных для безопасности. В этом направлении мы представляем метод "Редирекция концептов ранга один" (ROCR) — новый подход, не требующий обучения, как перспективное решение. ROCR выполняет "забывание", нацеливаясь на инварианты в последующих задачах, а именно на активированные опасные концепты. Он способен модифицировать параметры модели за считанные секунды, перенаправляя восприятие моделью конкретного целевого концепта на другой безвредный концепт. Многочисленные эксперименты демонстрируют, что ROCR значительно повышает эффективность "забывания" по сравнению с традиционными методами, при этом генерируя высоко естественные выходные данные.
Современные методы управления в диффузионных моделях направляют обратную выборку путем внесения возмущений в модель для построения неявной слабой модели и отклонения генерации от нее. Среди этих подходов возмущение внимания продемонстрировало высокую эмпирическую производительность в безусловных сценариях, где метод классификатор-фри гида неприменим. Однако существующие методы возмущения внимания не имеют принципиальных подходов для определения мест, где следует применять возмущения, особенно в архитектурах Diffusion Transformer (DiT), где вычисления, влияющие на качество, распределены по слоям. В данной работе мы исследуем гранулярность возмущений внимания, начиная с уровня слоев и заканчивая отдельными головами внимания, и обнаруживаем, что определенные головы управляют различными визуальными концепциями, такими как структура, стиль и качество текстуры. На основе этого понимания мы предлагаем "HeadHunter", систематическую структуру для итеративного выбора голов внимания, соответствующих пользовательским целям, что позволяет осуществлять детализированный контроль над качеством генерации и визуальными атрибутами. Кроме того, мы представляем SoftPAG, который линейно интерполирует карту внимания каждой выбранной головы к единичной матрице, предоставляя непрерывный регулятор для настройки силы возмущения и подавления артефактов. Наш подход не только смягчает проблемы избыточного сглаживания существующих методов возмущения на уровне слоев, но и позволяет целенаправленно манипулировать конкретными визуальными стилями через композиционный выбор голов. Мы проверяем наш метод на современных крупномасштабных DiT-моделях для генерации изображений из текста, включая Stable Diffusion 3 и FLUX.1, демонстрируя превосходную производительность как в общем улучшении качества, так и в стиле-специфическом гиде. Наша работа представляет первый анализ возмущения внимания на уровне голов в диффузионных моделях, раскрывая интерпретируемую специализацию внутри слоев внимания и обеспечивая практическое проектирование эффективных стратегий возмущения.
Основной целью механистической интерпретируемости является определение подходящих единиц анализа в больших языковых моделях (LLM), которые каузально объясняют их выходные данные. Хотя ранние исследования сосредотачивались на отдельных нейронах, доказательства того, что нейроны часто кодируют несколько концепций, стимулировали переход к анализу направлений в пространстве активаций. Ключевой вопрос заключается в том, как найти направления, которые захватывают интерпретируемые признаки в неконтролируемом режиме. Современные методы опираются на словарное обучение с использованием разреженных автокодировщиков (SAE), которые обычно обучаются на активациях остаточного потока для изучения направлений с нуля. Однако SAE часто сталкиваются с трудностями в каузальных оценках и не обладают внутренней интерпретируемостью, поскольку их обучение явно не связано с вычислениями модели. В данной работе мы преодолеваем эти ограничения, непосредственно разлагая активации MLP с помощью полунеотрицательной матричной факторизации (SNMF), так что изученные признаки представляют собой (а) разреженные линейные комбинации совместно активируемых нейронов и (б) отображаются на их активирующие входы, что делает их непосредственно интерпретируемыми. Эксперименты на моделях Llama 3.1, Gemma 2 и GPT-2 показывают, что признаки, полученные с помощью SNMF, превосходят SAE и сильный контролируемый базовый метод (разность средних) в каузальном управлении, одновременно согласуясь с интерпретируемыми человеком концепциями. Дополнительный анализ выявляет, что определенные комбинации нейронов повторно используются в семантически связанных признаках, раскрывая иерархическую структуру в пространстве активаций MLP. В совокупности эти результаты позиционируют SNMF как простой и эффективный инструмент для идентификации интерпретируемых признаков и анализа представлений концепций в LLM.
Обучение крупных языковых моделей обычно осуществляется с использованием методов оптимизации на кластерах, содержащих десятки тысяч акселераторов, которые взаимодействуют через высокоскоростные соединения. Масштабирование таких кластеров является дорогостоящим и может стать непрактичным, что накладывает ограничения на размер моделей, которые можно обучить. Несколько недавних исследований предложили методы обучения, требующие меньшего объема коммуникаций, что позволяет избежать необходимости в высокосвязанных вычислительных кластерах. Эти современные методы обучения с низким уровнем коммуникаций по-прежнему используют этап синхронизации параметров модели, который при выполнении на всех репликах модели может стать затратным в условиях низкоскоростной сети. В данной работе мы предлагаем новый метод оптимизации, NoLoCo, который не требует явной синхронизации всех параметров модели в процессе обучения и, как следствие, не использует коллективные коммуникации. NoLoCo неявно синхронизирует веса модели с помощью новой модификации оптимизатора Нестерова, частично усредняя веса модели с весами, случайно выбранными из другой реплики. Мы предоставляем как теоретический анализ сходимости для предложенного оптимизатора, так и эмпирические результаты обучения языковых моделей. Мы тестируем NoLoCo на широком диапазоне количества акселераторов и размеров моделей, от 125 миллионов до 6,8 миллиардов параметров. Наш метод требует значительно меньших затрат на коммуникации по сравнению с полностью распределенным параллельным обучением данных или даже широко используемым методом обучения с низким уровнем коммуникаций, DiLoCo. Этап синхронизации оценивается как на порядок быстрее, чем операция all-reduce, используемая в DiLoCo для обучения на нескольких сотнях акселераторов через интернет. Мы также не используем глобальные блокирующие коммуникации, что сокращает время простоя акселераторов. По сравнению с DiLoCo, мы также наблюдаем до 4% более быструю скорость сходимости для широкого диапазона размеров моделей и количества акселераторов.
Быстрое развитие научных областей создает сложности в организации и поиске научной литературы. Хотя традиционно эту потребность удовлетворяли экспертно-курируемые таксономии, этот процесс является трудоемким и дорогостоящим. Более того, современные методы автоматического построения таксономий либо (1) чрезмерно зависят от конкретного корпуса, жертвуя обобщаемостью, либо (2) в значительной степени опираются на общие знания крупных языковых моделей (LLM), содержащиеся в их предварительно обученных наборах данных, часто упуская из виду динамическую природу развивающихся научных областей. Кроме того, эти подходы не учитывают многогранный характер научной литературы, где одна исследовательская работа может вносить вклад в несколько измерений (например, методология, новые задачи, метрики оценки, бенчмарки). Для устранения этих пробелов мы предлагаем TaxoAdapt — фреймворк, который динамически адаптирует таксономию, сгенерированную LLM, к заданному корпусу по нескольким измерениям. TaxoAdapt выполняет итеративную иерархическую классификацию, расширяя как ширину, так и глубину таксономии на основе тематического распределения корпуса. Мы демонстрируем его передовую производительность на разнообразных наборах данных конференций по компьютерным наукам за разные годы, чтобы показать его способность структурировать и отражать эволюцию научных областей. Как многомерный метод, TaxoAdapt генерирует таксономии, которые на 26,51% лучше сохраняют гранулярность и на 50,41% более согласованы, чем наиболее конкурентоспособные базовые методы, оцененные LLM.
Утверждения, выдвигаемые отдельными лицами или организациями, зачастую носят сложный характер и не могут быть однозначно классифицированы как полностью «истинные» или «ложные» — что часто наблюдается в научных и политических заявлениях. Однако утверждение (например, «вакцина А лучше вакцины Б») может быть разложено на его ключевые аспекты и подаспекты (например, эффективность, безопасность, распределение), которые проще проверить по отдельности. Это позволяет дать более всесторонний и структурированный ответ, предоставляя целостный взгляд на проблему, а также позволяя читателю сосредоточиться на конкретных интересующих его аспектах утверждения (например, безопасности для детей). Таким образом, мы предлагаем ClaimSpect — основанную на генерации с использованием извлечения данных структуру, которая автоматически строит иерархию аспектов, обычно рассматриваемых при анализе утверждения, и обогащает их контекстно-зависимыми перспективами. Эта структура иерархически разделяет входной корпус для извлечения релевантных фрагментов, которые помогают обнаруживать новые подаспекты. Кроме того, эти фрагменты позволяют выявить различные точки зрения на аспект утверждения (например, поддержка, нейтралитет или оппозиция) и их распространённость (например, «сколько биомедицинских статей считают, что вакцина А более транспортабельна, чем Б?»). Мы применяем ClaimSpect к широкому спектру реальных научных и политических утверждений, представленных в нашем наборе данных, демонстрируя её устойчивость и точность в деконструкции сложных утверждений и представлении перспектив внутри корпуса. С помощью реальных кейсов и экспертной оценки мы подтверждаем её эффективность по сравнению с несколькими базовыми методами.
Классификаторно-независимое управление (Classifier-free guidance, CFG) стало важным компонентом современных диффузионных моделей, улучшающим как качество генерации, так и соответствие входным условиям. Однако CFG требует специфических процедур обучения и ограничено условной генерацией. Чтобы устранить эти ограничения, мы предлагаем метод Token Perturbation Guidance (TPG), который применяет матрицы возмущений непосредственно к промежуточным представлениям токенов внутри диффузионной сети. TPG использует нормосохраняющую операцию перестановки для обеспечения эффективных и стабильных сигналов управления, улучшающих качество генерации без изменения архитектуры. В результате TPG не требует обучения и не зависит от входных условий, что делает его применимым как для условной, так и для безусловной генерации. Мы также анализируем управляющий член, предоставляемый TPG, и показываем, что его влияние на выборку более близко к CFG по сравнению с существующими методами управления, не требующими обучения. Эксперименты на моделях SDXL и Stable Diffusion 2.1 демонстрируют, что TPG достигает почти двукратного улучшения FID для безусловной генерации по сравнению с базовой моделью SDXL, при этом близко соответствуя CFG в согласовании с запросами. Эти результаты подтверждают TPG как универсальный метод управления, не зависящий от условий, который приносит преимущества, подобные CFG, для более широкого класса диффузионных моделей. Код доступен по адресу: https://github.com/TaatiTeam/Token-Perturbation-Guidance.
Оптимизация вывода для крупномасштабных языковых моделей (LLM) с длинным контекстом становится все более важной задачей из-за квадратичной вычислительной сложности и линейной сложности по памяти, характерных для архитектуры Transformer. Существующие методы аппроксимации, такие как отбрасывание кэша ключей-значений (KV), разреженное внимание и сжатие промптов, обычно основываются на приблизительных прогнозах важности токенов или пар KV. Мы предлагаем новый фреймворк для аппроксимативного вывода LLM, который использует небольшие черновые модели для более точного прогнозирования важности токенов и пар KV. В частности, мы представляем две реализации нашего фреймворка: (i) SpecKV, который использует черновой вывод для точной оценки важности каждой пары KV с целью более эффективного отбрасывания кэша, и (ii) SpecPC, который использует активации внимания черновой модели для идентификации и удаления неважных токенов промпта. Насколько нам известно, это первая работа, в которой черновые модели используются для ускорения аппроксимативного вывода LLM, расширяя их применение за рамки традиционного безошибочного спекулятивного декодирования. Мы обосновываем наши методы теоретическим и эмпирическим анализом и демонстрируем сильную корреляцию между паттернами внимания черновых и целевых моделей. Экстенсивные эксперименты на бенчмарках с длинным контекстом показывают, что наши методы стабильно достигают более высокой точности по сравнению с существующими базовыми подходами, сохраняя при этом аналогичные улучшения в использовании памяти, задержке и пропускной способности. Наш код доступен по адресу https://github.com/furiosa-ai/draft-based-approx-llm.
Фундаментальные модели произвели революцию в таких областях, как обработка естественного языка и компьютерное зрение, обеспечивая универсальное обучение для разнообразных задач и наборов данных. Однако создание аналогичных моделей для анализа мобильности людей остается сложной задачей из-за конфиденциального характера данных о перемещениях и возникающих в результате информационных изолированных систем в различных организациях. Чтобы преодолеть этот разрыв, мы предлагаем MoveGCL — масштабируемую и обеспечивающую конфиденциальность платформу для обучения фундаментальных моделей мобильности с использованием генеративного непрерывного обучения. Без обмена исходными данными MoveGCL позволяет осуществлять децентрализованное и прогрессивное развитие моделей путем воспроизведения синтетических траекторий, сгенерированных замороженной моделью-учителем, и укрепляет сохранение знаний с помощью специализированной стратегии дистилляции, которая смягчает проблему катастрофического забывания. Для учета неоднородности паттернов мобильности MoveGCL включает трансформер с механизмом маршрутизации экспертов, учитывающим мобильность, и использует послойную стратегию прогрессивной адаптации для стабилизации непрерывных обновлений. Эксперименты на шести реальных городских наборах данных показывают, что MoveGCL достигает производительности, сопоставимой с совместным обучением, и значительно превосходит базовые методы федеративного обучения, обеспечивая при этом надежную защиту конфиденциальности. MoveGCL представляет собой важный шаг на пути к созданию фундаментальных моделей для анализа мобильности, предлагая практическую схему для открытой, масштабируемой и конфиденциальной разработки моделей в эпоху фундаментальных моделей.
Создание физически реалистичного и точно масштабированного симулированного 3D-мира имеет ключевое значение для обучения и оценки задач воплощённого интеллекта. Разнообразие, реалистичность, доступность и низкая стоимость 3D-активов критически важны для достижения обобщаемости и масштабируемости в воплощённом ИИ. Однако большинство современных задач воплощённого интеллекта по-прежнему в значительной степени опираются на традиционные 3D-активы компьютерной графики, созданные и аннотированные вручную, которые страдают от высоких затрат на производство и ограниченной реалистичности. Эти ограничения существенно затрудняют масштабируемость подходов, основанных на данных. Мы представляем EmbodiedGen — базовую платформу для интерактивного создания 3D-миров. Она позволяет масштабируемо генерировать высококачественные, управляемые и фотореалистичные 3D-активы с точными физическими свойствами и реальным масштабом в формате Unified Robotics Description Format (URDF) при низких затратах. Эти активы могут быть напрямую импортированы в различные движки физической симуляции для детализированного физического управления, поддерживая задачи обучения и оценки. EmbodiedGen представляет собой удобный в использовании, полнофункциональный инструментарий, состоящий из шести ключевых модулей: Image-to-3D, Text-to-3D, Генерация текстур, Генерация сочленённых объектов, Генерация сцен и Генерация компоновки. EmbodiedGen создаёт разнообразные и интерактивные 3D-миры, состоящие из генеративных 3D-активов, используя генеративный ИИ для решения задач обобщения и оценки в соответствии с потребностями исследований, связанных с воплощённым интеллектом. Код доступен по адресу https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
Точная оценка возможностей языковых моделей крайне важна для получения практических выводов, которые могут направлять разработку моделей. Однако строгие причинно-следственные оценки в этой области сталкиваются с серьезными методологическими трудностями, включая сложные эффекты смешения и непомерные вычислительные затраты, связанные с масштабным переобучением. Для решения этих проблем мы предлагаем фреймворк причинного обучения представлений, в котором наблюдаемая производительность на бенчмарках моделируется как линейное преобразование нескольких латентных факторов способностей. Ключевым моментом является то, что эти латентные факторы идентифицируются как причинно взаимосвязанные после надлежащего учета базовой модели как общего смешивающего фактора. Применяя этот подход к обширному набору данных, охватывающему более 1500 моделей, оцененных на шести бенчмарках из Open LLM Leaderboard, мы выявляем компактную трехузловую линейную причинную структуру, которая надежно объясняет наблюдаемые вариации производительности. Дальнейшая интерпретация этой причинной структуры предоставляет значительные научные инсайты, выходящие за рамки простых численных рейтингов: в частности, мы обнаруживаем четкую причинную направленность, начинающуюся с общих способностей к решению задач, переходящую к мастерству следования инструкциям и завершающуюся способностью к математическому рассуждению. Наши результаты подчеркивают важность тщательного контроля вариаций базовой модели в процессе оценки, что является критическим шагом для точного выявления скрытых причинно-следственных связей между латентными способностями моделей.
Подписи к рисункам играют ключевую роль в том, чтобы помочь читателям понять и запомнить основное сообщение изображения. Было разработано множество моделей для генерации таких подписей, что позволяет авторам создавать более качественные подписи с меньшими усилиями. Тем не менее, авторам почти всегда приходится редактировать универсальные подписи, сгенерированные искусственным интеллектом, чтобы они соответствовали их стилю письма и стилю конкретной области, что подчеркивает необходимость персонализации. Несмотря на прогресс в персонализации языковых моделей (LaMP), эти технологии часто сосредоточены на текстовых сценариях и редко учитывают ситуации, где как входные данные, так и профили являются мультимодальными. В данной статье представлен LaMP-Cap, набор данных для персонализированной генерации подписей к рисункам с использованием мультимодальных профилей изображений. Для каждого целевого рисунка LaMP-Cap предоставляет не только необходимые входные данные, такие как изображения, но и до трех других рисунков из того же документа — каждый со своим изображением, подписью и абзацами, упоминающими рисунок, — в качестве профиля для характеристики контекста. Эксперименты с четырьмя крупными языковыми моделями (LLM) показывают, что использование информации из профиля последовательно помогает генерировать подписи, более близкие к тем, что написаны авторами. Абляционные исследования показывают, что изображения в профиле более полезны, чем абзацы, упоминающие рисунок, что подчеркивает преимущество использования мультимодальных профилей по сравнению с текстовыми.
С развитием автоматизированных методов атак CAPTCHA остаются критически важным механизмом защиты от вредоносных ботов. Однако существующие схемы CAPTCHA охватывают широкий спектр модальностей — от статического искажённого текста и зашифрованных изображений до интерактивных кликов, слайдовых головоломок и логических вопросов — при этом сообщество всё ещё не имеет унифицированного, крупномасштабного, мультимодального бенчмарка для строгой оценки их устойчивости к атакам. Для устранения этого пробела мы представляем MCA-Bench, комплексный и воспроизводимый набор инструментов для тестирования, который интегрирует различные типы CAPTCHA в единый протокол оценки. Используя общую архитектуру модели на основе зрения и языка, мы дообучаем специализированные агенты для взлома каждой категории CAPTCHA, что позволяет проводить согласованную кросс-модальную оценку. Масштабные эксперименты показывают, что MCA-Bench эффективно отображает спектр уязвимостей современных дизайнов CAPTCHA в различных условиях атак и, что особенно важно, предлагает первый количественный анализ взаимосвязи между сложностью задачи, глубиной взаимодействия и решаемостью модели. На основе этих результатов мы предлагаем три практических принципа проектирования и выделяем ключевые открытые проблемы, закладывая основу для систематического укрепления CAPTCHA, справедливого тестирования и более широкого сотрудничества в сообществе. Наборы данных и код доступны онлайн.
Реконструкция динамических 3D-сцен в реальном времени из некалиброванных видеопотоков имеет решающее значение для множества практических приложений. Однако существующие методы сталкиваются с трудностями в одновременном решении трех ключевых задач: 1) обработка некалиброванных входных данных в реальном времени, 2) точное моделирование эволюции динамических сцен и 3) поддержание долгосрочной стабильности и вычислительной эффективности. В связи с этим мы представляем StreamSplat — первую полностью прямую (feed-forward) систему, которая преобразует некалиброванные видеопотоки произвольной длины в динамические представления 3D Gaussian Splatting (3DGS) в режиме онлайн, способную восстанавливать динамику сцены на основе временно локальных наблюдений. Мы предлагаем два ключевых технических новшества: вероятностный механизм выборки в статическом кодировщике для предсказания позиций 3DGS и двунаправленное поле деформации в динамическом декодере, обеспечивающее надежное и эффективное моделирование динамики. Экстенсивные эксперименты на статических и динамических тестовых наборах демонстрируют, что StreamSplat стабильно превосходит предыдущие работы как по качеству реконструкции, так и по моделированию динамических сцен, при этом уникально поддерживая онлайн-реконструкцию видеопотоков произвольной длины. Код и модели доступны по адресу https://github.com/nickwzk/StreamSplat.