AI研究论文每日精选

每日精选AI研究论文及翻译

CoSTAast：面向多轮图像编辑的成本敏感型工具路径代理
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou•Mar 13, 2025•357

世界建模成就更优规划器：面向具身任务规划的双重偏好优化
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu•Mar 13, 2025•275

无声品牌攻击：针对文本到图像扩散模型的无触发器数据投毒攻击
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang•Mar 12, 2025•271

探索与导航Hugging Face模型图谱
Charting and Navigating Hugging Face's Model Atlas

Eliahu Horwitz, Nitzan Kurer, Jonathan Kahana, Liel Amar, Yedid Hoshen•Mar 13, 2025•231

CoRe^2：收集、反思与精炼，实现更优更快的生成
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

Shitong Shao, Zikai Zhou, Dian Xie, Yuetong Fang, Tian Ye, Lichen Bai, Zeke Xie•Mar 12, 2025•223

GoT：释放多模态大语言模型的推理能力，助力视觉生成与编辑
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li•Mar 13, 2025•211

无需归一化的Transformer
Transformers without Normalization

Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu•Mar 13, 2025•201

GroundingSuite：复杂多粒度像素级定位能力评估
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang•Mar 13, 2025•151

现代机器翻译新趋势：基于大型推理模型
New Trends for Modern Machine Translation with Large Reasoning Models

Sinuo Liu, Chenyang Lyu, Minghao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang•Mar 13, 2025•141

将长上下文大语言模型的研究重心从输入转向输出
Shifting Long-Context LLMs Research from Input to Output

Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee•Mar 6, 2025•121

VisualWebInstruct：通过网页搜索扩展多模态指令数据规模
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen•Mar 13, 2025•101

DiT-Air：重新审视扩散模型架构在文本到图像生成中的效率设计
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

Chen Chen, Rui Qian, Wenze Hu, Tsu-Jui Fu, Lezhi Li, Bowen Zhang, Alex Schwing, Wei Liu, Yinfei Yang•Mar 13, 2025•81

在你眼中，我是否形似“猫.n.01”？一项关于分类学图像生成的基准测试
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina•Mar 13, 2025•81

Open-Sora 2.0：以20万美元成本训练商业级视频生成模型
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You•Mar 12, 2025•71

长上下文调优用于视频生成
Long Context Tuning for Video Generation

Yuwei Guo, Ceyuan Yang, Ziyan Yang, Zhibei Ma, Zhijie Lin, Zhenheng Yang, Dahua Lin, Lu Jiang•Mar 13, 2025•61

4D LangSplat：基于多模态大语言模型的四维语言高斯溅射
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister•Mar 13, 2025•61

SANA-Sprint：基于连续时间一致性蒸馏的一步扩散模型
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han•Mar 12, 2025•61

UniGoal：迈向通用零样本目标导向导航
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu•Mar 13, 2025•51

Light-R1：从零开始及超越的长链思维训练课程——监督微调、直接偏好优化与强化学习的综合应用
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang•Mar 13, 2025•51

CINEMA：基于多模态大语言模型引导的连贯多主体视频生成
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

Yufan Deng, Xun Guo, Yizhi Wang, Jacob Zhiyuan Fang, Angtian Wang, Shenghai Yuan, Yiding Yang, Bo Liu, Haibin Huang, Chongyang Ma•Mar 13, 2025•51

OpenAI Whisper模型的量化方法：对比分析
Quantization for OpenAI's Whisper Models: A Comparative Analysis

Allison Andreyev•Mar 12, 2025•51

在扩散模型中提炼多样性与控制性
Distilling Diversity and Control in Diffusion Models

Rohit Gandikota, David Bau•Mar 13, 2025•41

R1-Onevision：通过跨模态形式化推进广义多模态推理
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen•Mar 13, 2025•41

基于随机并行解码的自回归图像生成
Autoregressive Image Generation with Randomized Parallel Decoding

Haopeng Li, Jinyue Yang, Guoqi Li, Huan Wang•Mar 13, 2025•41

条件之困：分析与改进基于条件流生成的最优传输
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

Ho Kei Cheng, Alexander Schwing•Mar 13, 2025•31

VisualPRM：一种面向多模态推理的高效过程奖励模型
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Weiyun Wang, Zhangwei Gao, Lianjie Chen, Zhe Chen, Jinguo Zhu, Xiangyu Zhao, Yangzhou Liu, Yue Cao, Shenglong Ye, Xizhou Zhu, Lewei Lu, Haodong Duan, Yu Qiao, Jifeng Dai, Wenhai Wang•Mar 13, 2025•21

“无声并非真正无声”：Bug报告讨论中的毒性问题探究
"Silent Is Not Actually Silent": An Investigation of Toxicity on Bug Report Discussion

Mia Mohammad Imran, Jaydeb Sarker•Mar 13, 2025•21

PerCoV2：基于隐式分层掩码图像建模的改进型超低比特率感知图像压缩
PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller•Mar 12, 2025•11

视觉语言模型在理解图像变换方面的局限性
On the Limitations of Vision-Language Models in Understanding Image Transforms

Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz•Mar 12, 2025•01