Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

START: Самообучающийся рассуждающий агент с инструментами
START: Self-taught Reasoner with Tools

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu•Mar 6, 2025•734

Эффективное использование токенов для понимания длинных видео в мультимодальных больших языковых моделях
Token-Efficient Long Video Understanding for Multimodal LLMs

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon•Mar 6, 2025•642

LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal•Mar 6, 2025•472

EgoLife: В направлении эгоцентричного помощника для повседневной жизни
EgoLife: Towards Egocentric Life Assistant

Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu•Mar 5, 2025•292

LINGOLY-TOO: Разделение запоминания и рассуждений с помощью лингвистической шаблонизации и орфографической обфускации
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi•Mar 4, 2025•233

IFIR: Комплексный эталон для оценки выполнения инструкций в области экспертного информационного поиска
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao•Mar 6, 2025•182

Audio Flamingo 2: Аудио-языковая модель с возможностью понимания длинных аудиозаписей и экспертного анализа
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro•Mar 6, 2025•182

L^2M: Закон масштабирования взаимной информации для моделирования языка с длинным контекстом
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić•Mar 6, 2025•172

LLM как испорченный телефон: итеративная генерация искажает информацию
LLM as a Broken Telephone: Iterative Generation Distorts Information

Amr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang•Feb 27, 2025•172

HybridNorm: К стабильному и эффективному обучению трансформеров через гибридную нормализацию
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma•Mar 6, 2025•168

FuseChat-3.0: Оптимизация предпочтений и слияние гетерогенных моделей
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan•Mar 6, 2025•123

Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?
How to Steer LLM Latents for Hallucination Detection?

Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li•Mar 1, 2025•92

PokéChamp: Экспертный языковой агент, основанный на алгоритме минимакс
PokéChamp: an Expert-level Minimax Language Agent

Seth Karten, Andy Luu Nguyen, Chi Jin•Mar 6, 2025•92

Объединение экспертов: адаптация иерархической маршрутизации к эквивалентно декомпозированному трансформеру
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Yujiao Yang, Jing Lian, Linhui Li•Mar 4, 2025•74

Идентификация чувствительных весов через интеграл постквантования
Identifying Sensitive Weights via Post-quantization Integral

Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen•Feb 28, 2025•72

Лучшее из двух миров: интеграция языковых моделей и диффузионных моделей для генерации видео
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang•Mar 6, 2025•71

Специализированные модели обратной связи и редактирования обеспечивают масштабирование на этапе вывода для открытых задач общего назначения.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev•Mar 6, 2025•63

Объединение метода согласования потоков и трансформеров для эффективного решения байесовских обратных задач
Combining Flow Matching and Transformers for Efficient Solution of Bayesian Inverse Problems

Daniil Sherki, Ivan Oseledets, Ekaterina Muravleva•Mar 3, 2025•52

Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang•Mar 6, 2025•42

О приобретении общих грамматических представлений в двуязычных языковых моделях
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen•Mar 5, 2025•31

Понимание и прогнозирование срывов в токсичных обсуждениях на GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub

Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski•Mar 4, 2025•32