AI研究论文每日精选

每日精选AI研究论文及翻译

AdaptiVocab：通过轻量级词汇适配提升大语言模型在特定领域的效率
AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Itay Nakash, Nitay Calderon, Eyal Ben David, Elad Hoffer, Roi Reichart•Mar 25, 2025•752

探索人类反馈强化学习中的数据缩放趋势与影响
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan•Mar 28, 2025•442

大规模推理模型的高效推理研究综述：语言、多模态及更广阔领域
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Xiaoye Qu, Yafu Li, Zhaochen Su, Weigao Sun, Jianhao Yan, Dongrui Liu, Ganqu Cui, Daizong Liu, Shuxian Liang, Junxian He, Peng Li, Wei Wei, Jing Shao, Chaochao Lu, Yue Zhang, Xian-Sheng Hua, Bowen Zhou, Yu Cheng•Mar 27, 2025•394

先思后荐：释放序列推荐中的潜在推理能力
Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

Jiakai Tang, Sunhao Dai, Teng Shi, Jun Xu, Xu Chen, Wen Chen, Wu Jian, Yuning Jiang•Mar 28, 2025•352

OThink-MR1：通过动态强化学习激发多模态通用推理能力
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang•Mar 20, 2025•263

ORIGEN：文本到图像生成中的零样本三维方向定位
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation

Yunhong Min, Daehyeon Choi, Kyeongmin Yeo, Jihyun Lee, Minhyuk Sung•Mar 28, 2025•243

感知精确的三维说话头生成：新定义、语音-网格表示与评估指标
Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

Lee Chae-Yeon, Oh Hyun-Bin, Han EunGi, Kim Sung-Bin, Suekyeong Nam, Tae-Hyun Oh•Mar 26, 2025•223

Free4D：无需调优的时空一致性4D场景生成
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

Tianqi Liu, Zihao Huang, Zhaoxi Chen, Guangcong Wang, Shoukang Hu, Liao Shen, Huiqiang Sun, Zhiguo Cao, Wei Li, Ziwei Liu•Mar 26, 2025•212

你的视觉Transformer本质上是一个图像分割模型
Your ViT is Secretly an Image Segmentation Model

Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus•Mar 24, 2025•212

ReFeed：基于反馈反思推理的多维度摘要精炼
ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback

Taewon Yun, Jihwan Oh, Hyangsuk Min, Yuho Lee, Jihwan Bang, Jason Cai, Hwanjun Song•Mar 27, 2025•203

Zero4D：利用现成视频扩散模型实现单视频到4D视频的无训练生成
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model

Jangho Park, Taesung Kwon, Jong Chul Ye•Mar 28, 2025•182

视频中的任意运动分割
Segment Any Motion in Videos

Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang•Mar 28, 2025•172

物理学：评估基础模型在大学物理问题解决中的表现
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan•Mar 26, 2025•172

大规模语言模型中激活机制的精细化分析
A Refined Analysis of Massive Activations in LLMs

Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra•Mar 28, 2025•143

Hi3DGen：通过法线桥接实现图像到高保真三维几何的生成
Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging

Chongjie Ye, Yushuang Wu, Ziteng Lu, Jiahao Chang, Xiaoyang Guo, Jiaqing Zhou, Hao Zhao, Xiaoguang Han•Mar 28, 2025•112

基于生物力学精确骨骼的人体重建
Reconstructing Humans with a Biomechanically Accurate Skeleton

Yan Xia, Xiaowei Zhou, Etienne Vouga, Qixing Huang, Georgios Pavlakos•Mar 27, 2025•92

SparseFlex：高分辨率与任意拓扑的三维形状建模
SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling

Xianglong He, Zi-Xin Zou, Chia-Hao Chen, Yuan-Chen Guo, Ding Liang, Chun Yuan, Wanli Ouyang, Yan-Pei Cao, Yangguang Li•Mar 27, 2025•92

4D-Bench：面向四维物体理解的多模态大语言模型基准测试
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

Wenxuan Zhu, Bing Li, Cheng Zheng, Jinjie Mai, Jun Chen, Letian Jiang, Abdullah Hamdi, Sara Rojas Martinez, Chia-Wen Lin, Mohamed Elhoseiny, Bernard Ghanem•Mar 22, 2025•83

MedAgent-Pro：迈向基于多模态证据的医疗诊断推理代理工作流
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow

Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin•Mar 21, 2025•62

论大型多模态模型作为开放世界图像分类器的应用
On Large Multimodal Models as Open-World Image Classifiers

Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci•Mar 27, 2025•52

软件工程中人工智能的挑战与发展路径
Challenges and Paths Towards AI for Software Engineering

Alex Gu, Naman Jain, Wen-Ding Li, Manish Shetty, Yijia Shao, Ziyang Li, Diyi Yang, Kevin Ellis, Koushik Sen, Armando Solar-Lezama•Mar 28, 2025•42

X²-高斯：面向连续时间断层重建的四维辐射高斯分布重建技术
X^{2}-Gaussian: 4D Radiative Gaussian Splatting for Continuous-time Tomographic Reconstruction

Weihao Yu, Yuanhao Cai, Ruyi Zha, Zhiwen Fan, Chenxin Li, Yixuan Yuan•Mar 27, 2025•32

SWI：大语言模型中的意图驱动对话
SWI: Speaking with Intent in Large Language Models

Yuwei Yin, EunJeong Hwang, Giuseppe Carenini•Mar 27, 2025•22