AI研究论文每日精选

每日精选AI研究论文及翻译

VideoGrain：时空注意力调制实现多粒度视频编辑
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang•Feb 24, 2025•795

长上下文大语言模型如是说
Thus Spake Long-Context Large Language Model

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu•Feb 24, 2025•736

一日单GPU训练：语音语言模型的快速构建
Slamming: Training a Speech Language Model on One GPU in a Day

Gallil Maimon, Avishai Elmakies, Yossi Adi•Feb 19, 2025•692

DICEPTION：面向视觉感知任务的通用扩散模型
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen•Feb 24, 2025•533

Audio-FLAN：初步发布版
Audio-FLAN: A Preliminary Release

Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue•Feb 23, 2025•372

让LoRA再创辉煌：通过自适应奇异值与专家混合优化对齐提升LoRA性能
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng•Feb 24, 2025•294

GCC：基于色彩校验卡扩散的生成式色彩恒常性
GCC: Generative Color Constancy via Diffusing a Color Checker

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu•Feb 24, 2025•282

CodeCriticBench：面向大型语言模型的综合性代码评审基准
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang•Feb 23, 2025•273

数学推理中测试时缩放的语言泛化能力
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne•Feb 24, 2025•262

RIFLEx：视频扩散Transformer中长度外推的免费午餐
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu•Feb 21, 2025•203

Stable-SPAM：如何在4比特精度下比16比特Adam更稳定地进行训练
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu•Feb 24, 2025•182

多模态不一致性推理（MMIR）：多模态推理模型的新基准
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang•Feb 22, 2025•182

超越发布：生成式AI系统的访问考量
Beyond Release: Access Considerations for Generative AI Systems

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask•Feb 23, 2025•164

Mobile-Agent-V：通过视频引导的多智能体协作学习移动设备操作
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang•Feb 24, 2025•132

反思式规划：面向多阶段长时程机器人操作的视觉-语言模型
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo•Feb 23, 2025•132

基于场景的说服性语言生成在自动化营销中的应用
Grounded Persuasive Language Generation for Automated Marketing

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu•Feb 24, 2025•123

X-Dancer：从富有表现力的音乐到人类舞蹈视频的生成
X-Dancer: Expressive Music to Human Dance Video Generation

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo•Feb 24, 2025•113

预测Hugging Face平台上开源AI模型的增长趋势
Forecasting Open-Weight AI Model Growth on Hugging Face

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao•Feb 21, 2025•103

TAG：一种去中心化的多智能体分层强化学习框架
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl•Feb 21, 2025•92

跨朝代时序推理与对齐能力基准测试
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou•Feb 24, 2025•84

归纳基准：大语言模型在最简单复杂度类别中的失败
InductionBench: LLMs Fail in the Simplest Complexity Class

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang•Feb 20, 2025•72

探究量化方法对大型语言模型安全性与可靠性的影响
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev•Feb 18, 2025•72