AI研究論文每日精選

每日精選AI研究論文及翻譯

在離策略指導下學習推理
Learning to Reason under Off-Policy Guidance

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang•Apr 21, 2025•774

Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练能力
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu•Apr 21, 2025•655

FlowReasoner：強化查詢層級元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang•Apr 21, 2025•462

ToolRL：獎勵即為工具學習之所需
ToolRL: Reward is All Tool Learning Needs

Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji•Apr 16, 2025•412

OTC：基於強化學習的最優工具調用
OTC: Optimal Tool Calls via Reinforcement Learning

Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji•Apr 21, 2025•332

X-Teaming：基於自適應多代理的多輪越獄與防禦
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel•Apr 15, 2025•302

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang•Apr 20, 2025•273

SphereDiff：基於球形潛在表徵的免調參全向全景圖像與視頻生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo•Apr 19, 2025•272

THOUGHTTERMINATOR：推理模型中的過度思考之基準測試、校準與緩解
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang•Apr 17, 2025•242

StyleMe3D：基於多重編碼器與解耦先驗的三維高斯風格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li•Apr 21, 2025•232

從另一視角審視：評估多模態大語言模型中的多視角理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma•Apr 21, 2025•222

EasyEdit2：一個易於使用的導向框架，用於編輯大型語言模型
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Ziwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang•Apr 21, 2025•212

LeetCodeDataset：一個用於穩健評估與高效訓練程式碼大型語言模型的時序資料集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu•Apr 20, 2025•192

Uni3C：統一精確的3D增強相機與人體運動控制以實現視頻生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu•Apr 21, 2025•182

InfiGUI-R1：將多模態GUI代理從被動執行者推進為深思熟慮的推理者
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu•Apr 19, 2025•132

LearnAct：具備統一示範基準的少樣本移動端GUI代理
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng•Apr 18, 2025•112

透過強化視訊立方體壓縮實現高效視訊理解的輕量級多模態模型
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua•Apr 21, 2025•103

DRAGON：分佈式獎勵優化擴散生成模型
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan•Apr 21, 2025•102

LookingGlass：基於拉普拉斯金字塔變形的生成式錯視圖像
LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping

Pascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross, Vinicius C. Azevedo•Apr 11, 2025•86

RainbowPlus：透過演化式品質多樣性搜索提升對抗性提示生成
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Quy-Anh Dang, Chris Ngo, Truong-Son Hy•Apr 21, 2025•68

TAPIP3D：持久3D幾何中的任意點追蹤
TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki•Apr 20, 2025•62

NEMOTRON-CROSSTHINK：將自我學習能力擴展至數學推理之外
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro•Apr 15, 2025•64

PROMPTEVALS：一個用於客製化生產大型語言模型管線的斷言與防護機制資料集
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran•Apr 20, 2025•42

LoftUp：學習基於座標的特徵上採樣器用於視覺基礎模型
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang•Apr 18, 2025•42

RF-DETR目標檢測與YOLOv12之比較：基於Transformer與CNN架構在複雜果園環境下針對單類別及多類別綠果檢測於標籤模糊性之研究
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee•Apr 17, 2025•42

CoMotion：多人同步三維動作捕捉
CoMotion: Concurrent Multi-person 3D Motion

Alejandro Newell, Peiyun Hu, Lahav Lipson, Stephan R. Richter, Vladlen Koltun•Apr 16, 2025•32

擲骰子並三思而後行：突破下一個詞預測的創造力界限
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan•Apr 21, 2025•22

SilVar-Med：一種基於語音驅動的可視化語言模型，用於醫學影像中的可解釋異常檢測
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy•Apr 14, 2025•22