AI研究論文每日精選

每日精選AI研究論文及翻譯

SkillWeaver：網絡代理能通過發現與精進技能實現自我提升
SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills

Boyuan Zheng, Michael Y. Fatemi, Xiaolong Jin, Zora Zhiruo Wang, Apurva Gandhi, Yueqi Song, Yu Gu, Jayanth Srinivasa, Gaowen Liu, Graham Neubig, Yu Su•Apr 9, 2025•01

DDT：解耦扩散变换器
DDT: Decoupled Diffusion Transformer

Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang•Apr 8, 2025•703

OLMoTrace：將語言模型輸出追溯至數萬億訓練詞元
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge•Apr 9, 2025•692

缺失前提加劇過度思考：推理模型是否正在喪失批判性思維能力？
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou•Apr 9, 2025•363

FantasyTalking：通過連貫運動合成實現逼真肖像對話生成
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu•Apr 7, 2025•303

統一代理框架下的條件式圖像生成評估
A Unified Agentic Framework for Evaluating Conditional Image Generation

Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang•Apr 9, 2025•282

GenDoP：作為攝影指導的自回歸相機軌跡生成
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin•Apr 9, 2025•212

審視語言模型推理進展：可重現性的挑戰與路徑
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge•Apr 9, 2025•183

OmniCaptioner：一統天下的字幕生成器
OmniCaptioner: One Captioner to Rule Them All

Yiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao•Apr 9, 2025•172

自我導向語言模型
Self-Steering Language Models

Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas•Apr 9, 2025•152

視頻萬物皆可描述：基於時空多模態提示的細粒度物體中心描述生成
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu•Apr 7, 2025•141

VideoChat-R1：通過強化微調提升時空感知能力
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Xinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang•Apr 9, 2025•92

WildGS-SLAM：動態環境中的單目高斯潑濺SLAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Jianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni•Apr 4, 2025•93

遮蔽場景建模：縮小監督學習與自監督學習在三維場景理解中的差距
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Pedro Hermosilla, Christian Stippel, Leon Sick•Apr 9, 2025•82

DiTaiListener：基於擴散模型的高保真可控聽眾視頻生成
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani•Apr 5, 2025•82

我們是否已完成物件中心學習？
Are We Done with Object-Centric Learning?

Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh•Apr 9, 2025•52

預訓練語言模型以發現歷時語言變遷
Pretraining Language Models for Diachronic Linguistic Change Discovery

Elisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner•Apr 7, 2025•52

RuOpinionNE-2024：俄语新闻文本中的意见元组提取
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Natalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko•Apr 9, 2025•32

RobustDexGrasp：基於單視角感知的通用物體穩健靈巧抓取
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Hui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song•Apr 7, 2025•32

基於自適應加權拒絕採樣的語言模型快速控制生成
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Benjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira•Apr 7, 2025•22