Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет по Phi-4-Mini: Компактные, но мощные мультимодальные языковые модели с использованием смеси LoRA
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou•Mar 3, 2025•656

Visual-RFT: Визуальная тонкая настройка с подкреплением
Visual-RFT: Visual Reinforcement Fine-Tuning

Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang•Mar 3, 2025•592

Difix3D+: Улучшение 3D-реконструкций с помощью одношаговых диффузионных моделей
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling•Mar 3, 2025•372

Когнитивные модели поведения, способствующие самообучению систем рассуждений, или Четыре привычки высокоэффективных STaR-систем
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman•Mar 3, 2025•303

DiffRhythm: Невероятно быстрый и до смешного простой метод сквозной генерации полноформатных музыкальных композиций с использованием латентной диффузии
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie•Mar 3, 2025•262

От часов к минутам: без потерь ускорение генерации сверхдлинных последовательностей до 100 тысяч токенов
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng•Feb 26, 2025•232

OneRec: Объединение извлечения и ранжирования с генеративной рекомендательной системой и итеративным согласованием предпочтений
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou•Feb 26, 2025•212

Когда языковая модель сомневается в своих ответах — и когда её неуверенность обоснована —
When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev•Mar 3, 2025•192

Liger: Линеаризация крупных языковых моделей в гейтированные рекуррентные структуры
Liger: Linearizing Large Language Models to Gated Recurrent Structures

Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng•Mar 3, 2025•142

Эффективное масштабирование во время тестирования с помощью самокалибровки
Efficient Test-Time Scaling via Self-Calibration

Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang•Feb 25, 2025•122

Спекулятивное выполнение ad-hoc запросов
Speculative Ad-hoc Querying

Haoyu Li, Srikanth Kandula, Maria Angels de Luis Balaguer, Aditya Akella, Venkat Arun•Mar 2, 2025•122

Qilin: Мультимодальный набор данных для информационного поиска с пользовательскими сессиями на уровне приложений
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

Jia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu•Mar 1, 2025•112

Масштабный отбор данных для настройки инструкций
Large-Scale Data Selection for Instruction Tuning

Hamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi•Mar 3, 2025•102

Kiss3DGen: Перепрофилирование моделей диффузии изображений для генерации 3D-ассетов
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen•Mar 3, 2025•92

DuoDecoding: Аппаратно-ориентированное гетерогенное спекулятивное декодирование с динамическим формированием множественных последовательностей
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

Kai Lv, Honglin Guo, Qipeng Guo, Xipeng Qiu•Mar 2, 2025•92

SampleMix: Стратегия смешивания данных предварительного обучения на уровне выборок с учетом координации качества и разнообразия данных
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye•Mar 3, 2025•82

CodeArena: Платформа для коллективной оценки генерации кода с использованием больших языковых моделей
CodeArena: A Collective Evaluation Platform for LLM Code Generation

Mingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng•Mar 3, 2025•72

VideoUFO: Масштабный пользовательский набор данных для генерации видео по текстовому описанию
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation

Wenhao Wang, Yi Yang•Mar 3, 2025•72

PodAgent: Комплексная платформа для генерации подкастов
PodAgent: A Comprehensive Framework for Podcast Generation

Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee•Mar 1, 2025•62

Форма слова имеет значение: семантическая реконструкция в языковых моделях при типоглицемии
Word Form Matters: LLMs' Semantic Reconstruction under Typoglycemia

Chenxi Wang, Tianle Gu, Zhongyu Wei, Lang Gao, Zirui Song, Xiuying Chen•Mar 3, 2025•52

Искусственно созданные тональные языки: предотвращение машинного лингва-франка, выходящего за пределы человеческого понимания
AI-Invented Tonal Languages: Preventing a Machine Lingua Franca Beyond Human Understanding

David Noever•Mar 2, 2025•52

Общее рассуждение требует обучения рассуждать с самого начала.
General Reasoning Requires Learning to Reason from the Get-go

Seungwook Han, Jyothish Pari, Samuel J. Gershman, Pulkit Agrawal•Feb 26, 2025•42

Обучение метрического расстояния авторегрессивным мультимодальным базовым моделям
Teaching Metric Distance to Autoregressive Multimodal Foundational Models

Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu•Mar 4, 2025•32

CLEA: Агент с замкнутым циклом для повышения эффективности выполнения задач в динамических средах
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments

Mingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren•Mar 2, 2025•32

RSQ: Обучение на важных токенах приводит к созданию более качественных квантованных языковых моделей
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs

Yi-Lin Sung, Prateek Yadav, Jialu Li, Jaehong Yoon, Mohit Bansal•Mar 3, 2025•23

Почему веб-агенты ИИ более уязвимы, чем автономные языковые модели? Анализ безопасности
Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis

Jeffrey Yang Fan Chiang, Seungjae Lee, Jia-Bin Huang, Furong Huang, Yizheng Chen•Feb 27, 2025•22

Прямая дискриминативная оптимизация: ваш правдоподобный визуальный генеративная модель на самом деле является дискриминатором GAN
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang•Mar 3, 2025•22

Реконструкция планировки помещения по редким видам без предварительной подготовки в эпоху предобученных моделей
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue•Feb 24, 2025•22