Ежедневные статьи
START: Самообучающийся рассуждающий агент с инструментамиSTART: Self-taught Reasoner with Tools
START: Самообучающийся рассуждающий агент с инструментами
START: Self-taught Reasoner with Tools
Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu•Mar 6, 2025•594
Эффективное использование токенов для понимания длинных видео в мультимодальных больших языковых моделяхToken-Efficient Long Video Understanding for Multimodal LLMs
Эффективное использование токенов для понимания длинных видео в мультимодальных больших языковых моделях
Token-Efficient Long Video Understanding for Multimodal LLMs
Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon•Mar 6, 2025•502
LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
LLMVoX: Авторегрессивная потоковая модель преобразования текста в речь для любых языковых моделей (LLM)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal•Mar 6, 2025•382
EgoLife: В направлении эгоцентричного помощника для повседневной жизниEgoLife: Towards Egocentric Life Assistant
EgoLife: В направлении эгоцентричного помощника для повседневной жизни
EgoLife: Towards Egocentric Life Assistant
Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu•Mar 5, 2025•262
LINGOLY-TOO: Разделение запоминания и рассуждений с помощью лингвистической шаблонизации и орфографической обфускацииLINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic
Templatisation and Orthographic Obfuscation
LINGOLY-TOO: Разделение запоминания и рассуждений с помощью лингвистической шаблонизации и орфографической обфускации
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic
Templatisation and Orthographic Obfuscation
Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi•Mar 4, 2025•213
IFIR: Комплексный эталон для оценки выполнения инструкций в области экспертного информационного поискаIFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in
Expert-Domain Information Retrieval
IFIR: Комплексный эталон для оценки выполнения инструкций в области экспертного информационного поиска
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in
Expert-Domain Information Retrieval
Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao•Mar 6, 2025•172
LLM как испорченный телефон: итеративная генерация искажает информациюLLM as a Broken Telephone: Iterative Generation Distorts Information
LLM как испорченный телефон: итеративная генерация искажает информацию
LLM as a Broken Telephone: Iterative Generation Distorts Information
Amr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang•Feb 27, 2025•172
Audio Flamingo 2: Аудио-языковая модель с возможностью понимания длинных аудиозаписей и экспертного анализаAudio Flamingo 2: An Audio-Language Model with Long-Audio Understanding
and Expert Reasoning Abilities
Audio Flamingo 2: Аудио-языковая модель с возможностью понимания длинных аудиозаписей и экспертного анализа
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding
and Expert Reasoning Abilities
Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro•Mar 6, 2025•162
L^2M: Закон масштабирования взаимной информации для моделирования языка с длинным контекстомL^2M: Mutual Information Scaling Law for Long-Context Language
Modeling
L^2M: Закон масштабирования взаимной информации для моделирования языка с длинным контекстом
L^2M: Mutual Information Scaling Law for Long-Context Language
Modeling
Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić•Mar 6, 2025•152
HybridNorm: К стабильному и эффективному обучению трансформеров через гибридную нормализациюHybridNorm: Towards Stable and Efficient Transformer Training via Hybrid
Normalization
HybridNorm: К стабильному и эффективному обучению трансформеров через гибридную нормализацию
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid
Normalization
Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma•Mar 6, 2025•158
FuseChat-3.0: Оптимизация предпочтений и слияние гетерогенных моделейFuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion
FuseChat-3.0: Оптимизация предпочтений и слияние гетерогенных моделей
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion
Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan•Mar 6, 2025•113
PokéChamp: Экспертный языковой агент, основанный на алгоритме минимаксPokéChamp: an Expert-level Minimax Language Agent
PokéChamp: Экспертный языковой агент, основанный на алгоритме минимакс
PokéChamp: an Expert-level Minimax Language Agent
Seth Karten, Andy Luu Nguyen, Chi Jin•Mar 6, 2025•92
Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?How to Steer LLM Latents for Hallucination Detection?
Как управлять латентными переменными языковых моделей для обнаружения галлюцинаций?
How to Steer LLM Latents for Hallucination Detection?
Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li•Mar 1, 2025•82
Лучшее из двух миров: интеграция языковых моделей и диффузионных моделей для генерации видеоThe Best of Both Worlds: Integrating Language Models and Diffusion
Models for Video Generation
Лучшее из двух миров: интеграция языковых моделей и диффузионных моделей для генерации видео
The Best of Both Worlds: Integrating Language Models and Diffusion
Models for Video Generation
Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang•Mar 6, 2025•61
Специализированные модели обратной связи и редактирования обеспечивают масштабирование на этапе вывода для открытых задач общего назначения.Dedicated Feedback and Edit Models Empower Inference-Time Scaling for
Open-Ended General-Domain Tasks
Специализированные модели обратной связи и редактирования обеспечивают масштабирование на этапе вывода для открытых задач общего назначения.
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for
Open-Ended General-Domain Tasks
Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev•Mar 6, 2025•63
Идентификация чувствительных весов через интеграл постквантованияIdentifying Sensitive Weights via Post-quantization Integral
Идентификация чувствительных весов через интеграл постквантования
Identifying Sensitive Weights via Post-quantization Integral
Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen•Feb 28, 2025•52
Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделяхLost in Literalism: How Supervised Training Shapes Translationese in
LLMs
Потерянные в буквализме: как обучение с учителем формирует переводческий стиль в больших языковых моделях
Lost in Literalism: How Supervised Training Shapes Translationese in
LLMs
Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang•Mar 6, 2025•42
Объединение метода согласования потоков и трансформеров для эффективного решения байесовских обратных задачCombining Flow Matching and Transformers for Efficient Solution of
Bayesian Inverse Problems
Объединение метода согласования потоков и трансформеров для эффективного решения байесовских обратных задач
Combining Flow Matching and Transformers for Efficient Solution of
Bayesian Inverse Problems
Daniil Sherki, Ivan Oseledets, Ekaterina Muravleva•Mar 3, 2025•32
Понимание и прогнозирование срывов в токсичных обсуждениях на GitHubUnderstanding and Predicting Derailment in Toxic Conversations on GitHub
Понимание и прогнозирование срывов в токсичных обсуждениях на GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski•Mar 4, 2025•32
О приобретении общих грамматических представлений в двуязычных языковых моделяхOn the Acquisition of Shared Grammatical Representations in Bilingual
Language Models
О приобретении общих грамматических представлений в двуязычных языковых моделях
On the Acquisition of Shared Grammatical Representations in Bilingual
Language Models
Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen•Mar 5, 2025•21