AI研究论文每日精选

每日精选AI研究论文及翻译

SkillWeaver：网络智能体可通过发现与精进技能实现自我提升
SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills

Boyuan Zheng, Michael Y. Fatemi, Xiaolong Jin, Zora Zhiruo Wang, Apurva Gandhi, Yueqi Song, Yu Gu, Jayanth Srinivasa, Gaowen Liu, Graham Neubig, Yu Su•Apr 9, 2025•01

OLMoTrace：将语言模型输出追溯至数万亿训练标记
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge•Apr 9, 2025•733

DDT：解耦扩散变换器
DDT: Decoupled Diffusion Transformer

Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang•Apr 8, 2025•733

缺失前提加剧过度思考：推理模型是否正在丧失批判性思维能力？
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou•Apr 9, 2025•393

FantasyTalking：通过连贯运动合成实现逼真肖像对话生成
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu•Apr 7, 2025•323

统一代理框架下的条件图像生成评估
A Unified Agentic Framework for Evaluating Conditional Image Generation

Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Apr 9, 2025•302

GenDoP：作为摄影指导的自回归相机轨迹生成
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin•Apr 9, 2025•232

理性审视语言模型推理进展：可复现性的挑战与路径
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge•Apr 9, 2025•213

OmniCaptioner：一统天下的全能字幕生成器
OmniCaptioner: One Captioner to Rule Them All

Yiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao•Apr 9, 2025•202

自导向语言模型
Self-Steering Language Models

Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas•Apr 9, 2025•182

视频万物皆可描述：通过时空多模态提示实现细粒度物体中心描述
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu•Apr 7, 2025•161

VideoChat-R1：通过强化微调提升时空感知能力
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang•Apr 9, 2025•102

DiTaiListener：基于扩散模型的高保真可控听者视频生成
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani•Apr 5, 2025•102

WildGS-SLAM：动态环境下的单目高斯溅射SLAM系统
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Jianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni•Apr 4, 2025•103

掩码场景建模：缩小监督学习与自监督学习在三维场景理解中的差距
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Pedro Hermosilla, Christian Stippel, Leon Sick•Apr 9, 2025•92

我们是否已完成面向对象的学习？
Are We Done with Object-Centric Learning?

Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh•Apr 9, 2025•62

预训练语言模型用于历时语言变化发现
Pretraining Language Models for Diachronic Linguistic Change Discovery

Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner•Apr 7, 2025•62

RobustDexGrasp：基于单视角感知的通用物体稳健灵巧抓取
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Hui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song•Apr 7, 2025•52

RuOpinionNE-2024：从俄语新闻文本中提取观点三元组
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Natalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko•Apr 9, 2025•42

基于自适应加权拒绝采样的语言模型快速可控生成
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Benjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira•Apr 7, 2025•32