AI研究论文每日精选

每日精选AI研究论文及翻译

在非策略指导下的推理学习
Learning to Reason under Off-Policy Guidance

Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang•Apr 21, 2025•664

Eagle 2.5：推动前沿视觉-语言模型的长上下文后训练优化
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu•Apr 21, 2025•605

FlowReasoner：强化查询级元代理
FlowReasoner: Reinforcing Query-Level Meta-Agents

Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang•Apr 21, 2025•412

ToolRL：奖励机制即工具学习之所需
ToolRL: Reward is All Tool Learning Needs

Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji•Apr 16, 2025•382

OTC：通过强化学习实现最优工具调用
OTC: Optimal Tool Calls via Reinforcement Learning

Hongru Wang, Cheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji•Apr 21, 2025•302

X-团队协作：基于自适应多智能体的多轮越狱攻击与防御
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel•Apr 15, 2025•282

SphereDiff：基于球面潜在表示的无调优全向全景图像与视频生成
SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation

Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo•Apr 19, 2025•272

UFO2：桌面代理操作系统
UFO2: The Desktop AgentOS

Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang•Apr 20, 2025•263

StyleMe3D：基于多编码器与解耦先验的三维高斯风格化
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li•Apr 21, 2025•232

THOUGHTTERMINATOR：推理模型中的过度思考问题——基准测试、校准与缓解策略
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models

Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang•Apr 17, 2025•232

EasyEdit2：一个易于使用的大型语言模型编辑导向框架
EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

Ziwen Xu, Shuxun Wang, Kewei Xu, Haoming Xu, Mengru Wang, Xinle Deng, Yunzhi Yao, Guozhou Zheng, Huajun Chen, Ningyu Zhang•Apr 21, 2025•192

从另一视角审视：评估多模态大语言模型中的多视图理解能力
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma•Apr 21, 2025•182

LeetCodeDataset：一个用于代码大语言模型稳健评估与高效训练的时序数据集
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu•Apr 20, 2025•182

Uni3C：统一精确的3D增强相机与人体运动控制以实现视频生成
Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation

Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu•Apr 21, 2025•142

InfiGUI-R1：推动多模态GUI代理从反应型执行者向深思型推理者演进
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu•Apr 19, 2025•122

DRAGON：分布奖励优化扩散生成模型
DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan•Apr 21, 2025•102

LearnAct：基于统一演示基准的少样本移动GUI智能体
LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark

Guangyi Liu, Pengxiang Zhao, Liang Liu, Zhiming Chen, Yuxiang Chai, Shuai Ren, Hao Wang, Shibo He, Wenchao Meng•Apr 18, 2025•102

一种通过视频立方体强化压缩实现高效视频理解的语言多模态模型
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua•Apr 21, 2025•93

LookingGlass：基于拉普拉斯金字塔形变生成的错视艺术
LookingGlass: Generative Anamorphoses via Laplacian Pyramid Warping

Pascal Chang, Sergio Sancho, Jingwei Tang, Markus Gross, Vinicius C. Azevedo•Apr 11, 2025•86

RainbowPlus：通过进化式质量多样性搜索增强对抗性提示生成
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search

Quy-Anh Dang, Chris Ngo, Truong-Son Hy•Apr 21, 2025•68

TAPIP3D：持久三维几何中的任意点追踪
TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki•Apr 20, 2025•62

NEMOTRON-CROSSTHINK：将自我学习能力扩展至数学推理之外
NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning

Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturi, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro•Apr 15, 2025•64

RF-DETR目标检测与YOLOv12对比研究：基于Transformer与CNN架构在复杂果园环境下针对单类及多类青果检测的标签模糊性分析
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee•Apr 17, 2025•42

PROMPTEVALS：面向定制化生产大语言模型管道的断言与防护机制数据集
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines

Reya Vir, Shreya Shankar, Harrison Chase, Will Fu-Hinthorn, Aditya Parameswaran•Apr 20, 2025•32

SilVar-Med：一种基于语音的可视化语言模型，用于医学影像中的可解释性异常检测
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy•Apr 14, 2025•12