AI研究论文每日精选

每日精选AI研究论文及翻译

InternVL3：探索开源多模态模型的高级训练与测试时优化方案
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang•Apr 14, 2025•2398

PRIMA.CPP：加速70B规模大语言模型在低资源日常家用集群上的推理
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Zonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu•Apr 7, 2025•1237

我们是否已实现图像生成与理解的统一？对GPT-4o图像生成能力的实证研究
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Ning Li, Jingran Zhang, Justin Cui•Apr 9, 2025•472

VL-Rethinker：通过强化学习激励视觉-语言模型的自我反思
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen•Apr 10, 2025•422

FUSION：视觉-语言表征的深度融合以实现跨模态深度理解
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang•Apr 14, 2025•383

通过强化重排序实现代码生成的迭代自训练
Iterative Self-Training for Code Generation via Reinforced Re-Ranking

Nikita Sorokin, Ivan Sedykh, Valentin Malykh•Apr 13, 2025•342

Mavors：面向多模态大语言模型的多粒度视频表征
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang•Apr 14, 2025•302

AgentRewardBench：网络智能体轨迹自动评估的评测基准
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Xing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy•Apr 11, 2025•272

S1-Bench：评估大型推理模型系统1思维能力的简易基准
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu•Apr 14, 2025•213

DUMP：面向强化学习大模型后训练的自动化分布式课程学习
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training

Zhenting Wang, Guofeng Cui, Kun Wan, Wentian Zhao•Apr 13, 2025•192

突破数据壁垒——通过任务泛化构建GUI智能体
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He•Apr 14, 2025•172

MIEB：大规模图像嵌入基准测试
MIEB: Massive Image Embedding Benchmark

Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff•Apr 14, 2025•152

SocioVerse：基于LLM智能体与千万级真实用户池的社会模拟世界模型
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users

Xinnong Zhang, Jiayu Lin, Xinyi Mou, Shiyue Yang, Xiawei Liu, Libo Sun, Hanjia Lyu, Yihang Yang, Weihong Qi, Yue Chen, Guanying Li, Ling Yan, Yao Hu, Siming Chen, Yu Wang, Jingxuan Huang, Jiebo Luo, Shiping Tang, Libo Wu, Baohua Zhou, Zhongyu Wei•Apr 14, 2025•153

TinyLLaVA-Video-R1：迈向更小型化的视频推理多模态大模型
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Xingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang•Apr 13, 2025•153

可执行功能抽象：面向高等数学问题的生成式程序推断
Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems

Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal•Apr 14, 2025•132

VisuoThink：通过多模态树搜索增强LVLM推理能力
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu•Apr 12, 2025•114

M1：迈向可扩展的测试时计算——基于Mamba推理模型
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Junxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao•Apr 14, 2025•102

推理模型无需思考也能高效运作
Reasoning Models Can Be Effective Without Thinking

Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia•Apr 14, 2025•102

AI科学家-v2：通过代理树搜索实现实验室级别的自动化科学发现
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

Yutaro Yamada, Robert Tjarko Lange, Cong Lu, Shengran Hu, Chris Lu, Jakob Foerster, Jeff Clune, David Ha•Apr 10, 2025•102

LLM-SRBench：面向大语言模型的科学方程发现新基准
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy•Apr 14, 2025•82

EmoAgent：评估与保障人机交互中的心理健康安全
EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety

Jiahao Qiu, Yinghui He, Xinzhe Juan, Yiming Wang, Yuhan Liu, Zixin Yao, Yue Wu, Xun Jiang, Ling Yang, Mengdi Wang•Apr 13, 2025•73

新数据如何渗透大语言模型知识体系及其稀释方法
How new data permeates LLM knowledge and how to dilute it

Chen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler•Apr 13, 2025•72

3D CoCa：对比学习模型即三维场景描述生成器
3D CoCa: Contrastive Learners are 3D Captioners

Ting Huang, Zeyu Zhang, Yemin Wang, Hao Tang•Apr 13, 2025•52

大语言模型或成危险说服者：大语言模型说服安全性的实证研究
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang•Apr 14, 2025•42

DeepSeek 对比 o3-mini：推理型大语言模型在机器翻译与摘要任务评估中的表现如何？
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger•Apr 10, 2025•42

MDK12-Bench：一个多学科基准，用于评估多模态大语言模型的推理能力
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang•Apr 8, 2025•42

MCP安全审计：采用模型上下文协议的LLM存在重大安全漏洞
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

Brandon Radosevich, John Halloran•Apr 2, 2025•32

DiffuMural：基于多尺度扩散的敦煌壁画修复
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Puyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong•Apr 13, 2025•12