Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VideoGrain: Модулирование пространственно-временного внимания для многоуровневого видео-редактирования
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang•Feb 24, 2025•724

Так говорил модель языка с длинным контекстом
Thus Spake Long-Context Large Language Model

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu•Feb 24, 2025•676

Самминг: Обучение модели языка речи на одном GPU за один день
Slamming: Training a Speech Language Model on One GPU in a Day

Gallil Maimon, Avishai Elmakies, Yossi Adi•Feb 19, 2025•662

DICEPTION: Обобщенная модель диффузии для визуальных восприятий.
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen•Feb 24, 2025•513

Аудио-FLAN: Предварительный выпуск
Audio-FLAN: A Preliminary Release

Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue•Feb 23, 2025•332

GCC: Генеративная цветовая постоянство через диффузию цветовой шкалы.
GCC: Generative Color Constancy via Diffusing a Color Checker

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu•Feb 24, 2025•272

Сделать LoRA Великим Снова: Повышение Эффективности LoRA с Адаптивными Сингулярными Значениями и Оптимизацией Выравнивания Микса Экспертов
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng•Feb 24, 2025•264

Лингвистическая обобщаемость масштабирования времени тестирования в математическом рассуждении
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne•Feb 24, 2025•242

CodeCriticBench: всесторонний бенчмарк для оценки кода для крупных языковых моделей
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang•Feb 23, 2025•243

RIFLEx: Бесплатный обед для экстраполяции длины в видео диффузии трансформеров
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu•Feb 21, 2025•203

Стабильный-SPAM: Как обучаться в 4 бита более стабильно, чем с помощью 16-битного метода оптимизации Adam.
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu•Feb 24, 2025•162

Многомодальное рассуждение о несогласованности (MMIR): новый бенчмарк для моделей многомодального рассуждения
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang•Feb 22, 2025•162

За пределами выпуска: вопросы доступа к генеративным ИИ-системам.
Beyond Release: Access Considerations for Generative AI Systems

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask•Feb 23, 2025•122

X-Dancer: Генерация выразительного музыкального видео человеческого танца
X-Dancer: Expressive Music to Human Dance Video Generation

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo•Feb 24, 2025•113

Мобильный агент-V: Обучение операциям на мобильных устройствах через видео-руководство Мультиагентное сотрудничество.
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang•Feb 24, 2025•112

Рефлексивное планирование: модели видео-языков для многоэтапной долгосрочной робототехнической манипуляции
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo•Feb 23, 2025•112

Основанная на данных генерация убедительного языка для автоматизированного маркетинга
Grounded Persuasive Language Generation for Automated Marketing

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu•Feb 24, 2025•103

Прогнозирование роста моделей искусственного интеллекта с открытым доступом на платформе Hugging Face
Forecasting Open-Weight AI Model Growth on Hugging Face

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao•Feb 21, 2025•103

МЕТКА: Децентрализованная структура для многоагентного иерархического обучения с подкреплением
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl•Feb 21, 2025•82

Измерение временных рассуждений и выравнивания по временным периодам китайских династий.
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou•Feb 24, 2025•74

InductionBench: LLM-модели не справляются с самым простым классом сложности.
InductionBench: LLMs Fail in the Simplest Complexity Class

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang•Feb 20, 2025•62

Исследование влияния методов квантования на безопасность и надежность больших языковых моделей
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev•Feb 18, 2025•62

Pandora3D: Комплексная платформа для генерации трехмерных форм и текстур высокого качества
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji•Feb 20, 2025•52

Могут ли заметки сообщества заменить профессиональных проверяющих фактов?
Can Community Notes Replace Professional Fact-Checkers?

Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein•Feb 19, 2025•52

MutaGReP: Поиск планов на основе репозитория без выполнения для использования кода
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta•Feb 21, 2025•42

Берегитесь пробела! Статическая и интерактивная оценка больших аудиомоделей
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang•Feb 21, 2025•32

Оценка качества перевода с использованием раннего прерывания и мгновенной уверенности
Early-Exit and Instant Confidence Translation Quality Estimation

Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues•Feb 20, 2025•32

Самообучение агентного понимания длинного контекста
Self-Taught Agentic Long Context Understanding

Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum•Feb 21, 2025•22

МОНСТР: Репозиторий оценки масштабируемых временных рядов Монашского университета
MONSTER: Monash Scalable Time Series Evaluation Repository

Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb•Feb 21, 2025•22

MegaLoc: Одно извлечение для размещения их всех
MegaLoc: One Retrieval to Place Them All

Gabriele Berton, Carlo Masone•Feb 24, 2025•12

Диагностика тяжести COVID-19 по изображениям грудной клетки с использованием архитектур ViT и CNN
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield•Feb 23, 2025•12

M3-AGIQA: Мультимодальная, многокруговая, многоаспектная оценка качества изображений, созданных искусственным интеллектом.
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu•Feb 21, 2025•12

Змея в броуновской сфере
The snake in the Brownian sphere

Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont•Feb 18, 2025•12