AI研究论文每日精选

每日精选AI研究论文及翻译

这是你的最终答案吗？测试时调整提升选择性问答性能
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

William Jurayj, Jeffrey Cheng, Benjamin Van Durme•Feb 19, 2025•31

Soundwave：大语言模型中语音-文本对齐的“少即是多”之道
Soundwave: Less is More for Speech-Text Alignment in LLMs

Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li•Feb 18, 2025•782

将1568个词元压缩至单一向量并还原：探索嵌入空间容量的极限
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Yuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev•Feb 18, 2025•674

Magma：多模态AI智能体的基础模型
Magma: A Foundation Model for Multimodal AI Agents

Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao•Feb 18, 2025•566

语言建模的连续扩散模型
Continuous Diffusion Model for Language Modeling

Jaehyeong Jo, Sung Ju Hwang•Feb 17, 2025•524

幻影：通过跨模态对齐实现主题一致性的视频生成
Phantom: Subject-consistent video generation via cross-modal alignment

Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu•Feb 16, 2025•522

多模态Mamba：通过二次到线性蒸馏实现的仅解码器多模态状态空间模型
Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

Bencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang•Feb 18, 2025•362

通过主成分分析重新审视多样化人类偏好的学习
Rethinking Diverse Human Preference Learning through Principal Component Analysis

Feng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen•Feb 18, 2025•353

您尚未充分利用Transformer的表示能力
You Do Not Fully Utilize Transformer's Representation Capacity

Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov•Feb 13, 2025•343

FLAG-Trader：融合大语言模型与梯度强化学习的智能金融交易代理
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie•Feb 17, 2025•312

SoFar：语言锚定的空间定向桥梁——连接空间推理与物体操作
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi•Feb 18, 2025•292

SafeRoute：面向大型语言模型的高效精准安全防护之自适应模型选择
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang•Feb 18, 2025•272

重新审视类o1模型的测试时扩展能力：它们是否真正具备测试时扩展特性？
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu•Feb 17, 2025•162

OctoTools：一个具备可扩展工具集的智能体框架，用于复杂推理任务
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou•Feb 16, 2025•163

PAFT：与提示无关的微调
PAFT: Prompt-Agnostic Fine-Tuning

Chenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu•Feb 18, 2025•158

RealSyn：一种高效且可扩展的多模态交错文档转换范式
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng•Feb 18, 2025•152

马尔可夫大语言模型测试时扩展的思维原子
Atom of Thoughts for Markov LLM Test-Time Scaling

Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo•Feb 17, 2025•154

Text2World：大语言模型符号化世界模型生成的基准测试
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo•Feb 18, 2025•122

MUDDFormer：通过多路动态密集连接突破Transformer中的残差瓶颈
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan•Feb 13, 2025•122

HeadInfer：通过逐头卸载实现内存高效的大型语言模型推理
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar•Feb 18, 2025•112

YOLOv12：以注意力机制为核心的实时目标检测器
YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye, David Doermann•Feb 18, 2025•102

HealthGPT：通过异构知识适配统一理解与生成的医疗大视觉语言模型
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi•Feb 14, 2025•102

DiLoCo中重叠通信与计算的急切更新机制
Eager Updates For Overlapped Communication and Computation in DiLoCo

Satyen Kale, Arthur Douillard, Yanislav Donchev•Feb 18, 2025•72

选项流：通过思考选项实现多样化与提升的大语言模型推理
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options

Lakshmi Nair, Ian Trase, Mark Kim•Feb 18, 2025•72

大型推理模型的潜在风险：R1模型的安全评估
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang•Feb 18, 2025•72

群体对比推理：为LLM-as-a-Judge开启全面评估之门
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Qiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma•Feb 18, 2025•62

基于四维表示的预训练自回归机器人模型
Pre-training Auto-regressive Robotic Models with 4D Representations

Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig•Feb 18, 2025•42

将领域特定知识注入大型语言模型：一项全面综述
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey

Zirui Song, Bin Yan, Yuhan Liu, Miao Fang, Mingzhe Li, Rui Yan, Xiuying Chen•Feb 15, 2025•42

FinMTEB：金融领域大规模文本嵌入基准
FinMTEB: Finance Massive Text Embedding Benchmark

Yixuan Tang, Yi Yang•Feb 16, 2025•32

钙钛矿-大语言模型：面向钙钛矿太阳能电池研究的知识增强型大语言模型
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Xiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang•Feb 18, 2025•22

通过自动奖励建模与规划实现自主智能体的规模化扩展
Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan•Feb 17, 2025•22

多语言编码器蕴含超乎想象的知识：面向极低资源语言的共享权重预训练
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong•Feb 15, 2025•22

利用视觉模型进行时间序列分析：综述
Harnessing Vision Models for Time Series Analysis: A Survey

Jingchao Ni, Ziming Zhao, ChengAo Shen, Hanghang Tong, Dongjin Song, Wei Cheng, Dongsheng Luo, Haifeng Chen•Feb 13, 2025•22