AI研究论文每日精选

每日精选AI研究论文及翻译

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型
Kuwain 1.5B: An Arabic SLM via Language Injection

Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan•Apr 21, 2025•1017

TTRL：测试时强化学习
TTRL: Test-Time Reinforcement Learning

Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou•Apr 22, 2025•682

从2000多个多语言基准测试中汲取的深刻教训
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang•Apr 22, 2025•532

描述万物：精细化的局部图像与视频字幕生成
Describe Anything: Detailed Localized Image and Video Captioning

Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui•Apr 22, 2025•443

语言模型的自适应并行推理学习
Learning Adaptive Parallel Reasoning with Language Models

Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr•Apr 21, 2025•352

LiveCC：基于大规模流式语音转录的视频大语言模型学习
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou•Apr 22, 2025•192

IV-Bench：多模态大语言模型中图像引导视频感知与推理的基准测试
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin•Apr 21, 2025•182

书界：从小说到互动智能体社会，助力创意故事生成
BookWorld: From Novels to Interactive Agent Societies for Creative Story Generation

Yiting Ran, Xintao Wang, Tian Qiu, Jiaqing Liang, Yanghua Xiao, Deqing Yang•Apr 20, 2025•182

高效预训练长度扩展
Efficient Pretraining Length Scaling

Bohong Wu, Shen Yan, Sijun Zhang, Jianqiao Lu, Yutao Zeng, Ya Wang, Xun Zhou•Apr 21, 2025•162

CheXWorld：探索放射影像表征中的图像世界建模学习
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang•Apr 18, 2025•152

基于自回归模型的个性化文本到图像生成
Personalized Text-to-Image Generation with Auto-Regressive Models

Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu•Apr 17, 2025•143

大语言模型是贪婪的智能体：强化学习微调对决策能力的影响
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu•Apr 22, 2025•132

Vidi：面向视频理解与编辑的大型多模态模型
Vidi: Large Multimodal Models for Video Understanding and Editing

Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu•Apr 22, 2025•122

从反思到完善：通过反思调优扩展文本到图像扩散模型的推理时优化
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li•Apr 22, 2025•82

WALL-E 2.0：通过神经符号学习实现世界对齐，提升基于世界模型的大语言模型智能体
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang•Apr 22, 2025•84

RealisDance-DiT：迈向野外可控角色动画的简洁而强大的基线
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang•Apr 21, 2025•62

MR. Video："MapReduce"是长视频理解的核心原则
MR. Video: "MapReduce" is the Principle for Long Video Understanding

Ziqi Pang, Yu-Xiong Wang•Apr 22, 2025•42

Progent：面向大语言模型代理的可编程权限控制系统
Progent: Programmable Privilege Control for LLM Agents

Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song•Apr 16, 2025•42

IPBench：大型语言模型在知识产权领域知识能力的基准测试
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang•Apr 22, 2025•32

CAPTURe：通过遮挡物体计数评估视觉语言模型的空间推理能力
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal•Apr 21, 2025•32

DiffVox：一种可微分模型，用于捕捉与分析专业特效分布
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji•Apr 20, 2025•12