AI研究论文每日精选

每日精选AI研究论文及翻译

START：具备工具使用能力的自学习推理器
START: Self-taught Reasoner with Tools

Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu•Mar 6, 2025•1116

面向多模态大语言模型的令牌高效长视频理解
Token-Efficient Long Video Understanding for Multimodal LLMs

Jindong Jiang, Xiuyu Li, Zhijian Liu, Muyang Li, Guo Chen, Zhiqi Li, De-An Huang, Guilin Liu, Zhiding Yu, Kurt Keutzer, Sungjin Ahn, Jan Kautz, Hongxu Yin, Yao Lu, Song Han, Wonmin Byeon•Mar 6, 2025•942

LLMVoX：面向任意大语言模型的自回归流式文本转语音系统
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal•Mar 6, 2025•705

EgoLife：迈向以自我为中心的生活助手
EgoLife: Towards Egocentric Life Assistant

Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu•Mar 5, 2025•422

大语言模型如同失真的传声筒：迭代生成导致信息失真
LLM as a Broken Telephone: Iterative Generation Distorts Information

Amr Mohamed, Mingmeng Geng, Michalis Vazirgiannis, Guokan Shang•Feb 27, 2025•272

LINGOLY-TOO：通过语言模板化与拼写混淆技术分离记忆与推理能力
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi•Mar 4, 2025•253

Audio Flamingo 2：具备长音频理解与专家推理能力的音频-语言模型
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro•Mar 6, 2025•232

IFIR：专家领域信息检索中指令遵循评估的综合基准
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Tingyu Song, Guo Gan, Mingsheng Shang, Yilun Zhao•Mar 6, 2025•212

L^2M：长上下文语言建模的互信息缩放定律
L^2M: Mutual Information Scaling Law for Long-Context Language Modeling

Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić•Mar 6, 2025•202

HybridNorm：通过混合归一化实现稳定高效的Transformer训练
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma•Mar 6, 2025•208

FuseChat-3.0：偏好优化与异构模型融合的完美结合
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

Ziyi Yang, Fanqi Wan, Longguang Zhong, Canbin Huang, Guosheng Liang, Xiaojun Quan•Mar 6, 2025•153

宝可梦大师：专家级极小极大语言智能体
PokéChamp: an Expert-level Minimax Language Agent

Seth Karten, Andy Luu Nguyen, Chi Jin•Mar 6, 2025•122

如何引导大语言模型的潜在空间以检测幻觉现象？
How to Steer LLM Latents for Hallucination Detection?

Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li•Mar 1, 2025•112

融合语言模型与扩散模型：视频生成的双重优势
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang•Mar 6, 2025•91

专家联盟：将层级路由机制适配于等效分解的Transformer架构
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Yujiao Yang, Jing Lian, Linhui Li•Mar 4, 2025•84

专用反馈与编辑模型助力开放式通用领域任务的推理时扩展
Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev•Mar 6, 2025•74

通过后量化积分识别敏感权重
Identifying Sensitive Weights via Post-quantization Integral

Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen•Feb 28, 2025•72

迷失于字面翻译：监督训练如何塑造大语言模型中的翻译腔
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang•Mar 6, 2025•52

结合流匹配与Transformer，高效求解贝叶斯逆问题
Combining Flow Matching and Transformers for Efficient Solution of Bayesian Inverse Problems

Daniil Sherki, Ivan Oseledets, Ekaterina Muravleva•Mar 3, 2025•52

理解与预测GitHub上有害对话中的失控现象
Understanding and Predicting Derailment in Toxic Conversations on GitHub

Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski•Mar 4, 2025•42

论双语语言模型中共享语法表征的习得
On the Acquisition of Shared Grammatical Representations in Bilingual Language Models

Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen•Mar 5, 2025•31