AI研究论文每日精选

每日精选AI研究论文及翻译

本地稀疏注意力：硬件对齐和本地可训练稀疏注意力
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng•Feb 16, 2025•1449

SWE-Lancer：前沿LLM能否从真实世界的自由职业软件工程中赚取100万美元？
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke•Feb 17, 2025•435

为现实世界的人形机器人学习起身策略
Learning Getting-Up Policies for Real-World Humanoid Robots

Xialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta•Feb 17, 2025•373

我思故我扩散：实现扩散模型中的多模态上下文推理
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu•Feb 12, 2025•303

ReLearn：大型语言模型的反学习学习
ReLearn: Unlearning via Learning for Large Language Models

Haoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang•Feb 16, 2025•292

LLM如何获取新知识？对持续预训练的知识回路视角
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen•Feb 16, 2025•226

CRANE：受限LLM生成推理
CRANE: Reasoning with constrained LLM generation

Debangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh•Feb 13, 2025•192

通过自监督预训练在自然视频上出现的直觉物理理解
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun•Feb 17, 2025•182

IHEval：评估语言模型对指令层次结构的遵循能力
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang•Feb 12, 2025•182

多模态检索增强生成综合调查：任意模态下的问答
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari•Feb 12, 2025•172

HermesFlow：无缝地弥合多模态理解与生成之间的差距
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui•Feb 17, 2025•162

扩散-锐化：利用去噪轨迹锐化微调扩散模型。
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui•Feb 17, 2025•163

利用开源模型为用户偏好生成系统消息
System Message Generation for User Preferences using Open-Source Models

Minbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong•Feb 17, 2025•152

Sailor2：驾驭包容性多语言大模型，扬帆东南亚
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin•Feb 18, 2025•144

结构化交流，分层行动：LLM多智能体系统的协作框架
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Zhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu•Feb 16, 2025•132

探索者：面向多模态网络代理的规模化探索驱动型网页轨迹合成
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah•Feb 17, 2025•102

模型编辑的幻觉：重访野外评估
The Mirage of Model Editing: Revisiting Evaluation in the Wild

Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng•Feb 16, 2025•102

SURGE：大型语言模型作为通用代理代码执行器的潜力
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Bohan Lyu, Siqiao Huang, Zichen Liang•Feb 16, 2025•102

MagicArticulate：让您的3D模型具备关节动作准备能力
MagicArticulate: Make Your 3D Models Articulation-Ready

Chaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin•Feb 17, 2025•82

视频-SALMONN-o1：增强推理的视听大型语言模型
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang•Feb 17, 2025•82

SAFE-SQL：自我增强上下文学习与细粒度示例选择，用于文本到SQL。
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Jimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee•Feb 17, 2025•72

EQ-VAE：通过等变性正则化潜在空间提升生成图像建模
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis•Feb 13, 2025•72

展示一个例子，了解许多概念！在数学LLM中驱动反例的概念推理
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs

Yinghui Li, Jiayi Kuang, Haojing Huang, Zhikun Xu, Xinnian Liang, Yi Yu, Wenlian Lu, Yangning Li, Xiaoyu Tan, Chao Qu, Ying Shen, Hai-Tao Zheng, Philip S. Yu•Feb 12, 2025•72

PhysReason：一个面向基于物理的推理的全面基准。
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu•Feb 17, 2025•62

构建一个以证明为导向的程序员，比GPT-4o在数据稀缺情况下提高了64%
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Dylan Zhang, Justin Wang, Tianran Sun•Feb 17, 2025•62

杜鹃：在LLM巢穴中由大量营养孵化出的IE自由骑手
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang•Feb 16, 2025•62

Dyve：为动态过程验证而设计的《快思慢想》
Dyve: Thinking Fast and Slow for Dynamic Process Verification

Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu•Feb 16, 2025•62

记忆、基准测试与机器人：用强化学习解决复杂任务的基准测试
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov•Feb 14, 2025•52

单一模型能否同时掌握多轮对话与工具使用？ CALM：统一对话式智能语言模型
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur•Feb 12, 2025•42