AI研究論文每日精選

每日精選AI研究論文及翻譯

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型
Kuwain 1.5B: An Arabic SLM via Language Injection

Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan•Apr 21, 2025•1137

TTRL：測試時強化學習
TTRL: Test-Time Reinforcement Learning

Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou•Apr 22, 2025•934

從2000多個多語言基準測試中汲取的深刻教訓
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang•Apr 22, 2025•612

描述萬物：精細的局部化圖像與視頻字幕生成
Describe Anything: Detailed Localized Image and Video Captioning

Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui•Apr 22, 2025•564

學習語言模型的自適應平行推理
Learning Adaptive Parallel Reasoning with Language Models

Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr•Apr 21, 2025•422

LiveCC：基於大規模串流語音轉錄的影片大語言模型學習
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou•Apr 22, 2025•312

BookWorld：從小說到互動代理社會，用於創意故事生成
BookWorld: From Novels to Interactive Agent Societies for Creative Story Generation

Yiting Ran, Xintao Wang, Tian Qiu, Jiaqing Liang, Yanghua Xiao, Deqing Yang•Apr 20, 2025•262

IV-Bench：多模态大語言模型中基於圖像的視頻感知與推理基準
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin•Apr 21, 2025•212

大型語言模型是貪婪的代理者：強化學習微調對決策能力的影響
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

Thomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu•Apr 22, 2025•193

高效預訓練長度擴展
Efficient Pretraining Length Scaling

Bohong Wu, Shen Yan, Sijun Zhang, Jianqiao Lu, Yutao Zeng, Ya Wang, Xun Zhou•Apr 21, 2025•192

WALL-E 2.0：基於神經符號學習的世界對齊提升世界模型驅動的大型語言模型代理
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang•Apr 22, 2025•184

基於自回歸模型的個性化文本到圖像生成
Personalized Text-to-Image Generation with Auto-Regressive Models

Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu•Apr 17, 2025•183

CheXWorld：探索放射影像表示中的圖像世界建模學習
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

Yang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang•Apr 18, 2025•172

從反思到完美：通過反思調優擴展文本到圖像擴散模型的推理時間優化
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li•Apr 22, 2025•152

Vidi：面向視頻理解與編輯的大型多模態模型
Vidi: Large Multimodal Models for Video Understanding and Editing

Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu•Apr 22, 2025•152

RealisDance-DiT：邁向可控角色動畫的簡潔而強大的基線模型
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang•Apr 21, 2025•92

Progent：大型語言模型代理的可編程權限控制
Progent: Programmable Privilege Control for LLM Agents

Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song•Apr 16, 2025•72

MR. Video：「MapReduce」是長視頻理解的核心原則
MR. Video: "MapReduce" is the Principle for Long Video Understanding

Ziqi Pang, Yu-Xiong Wang•Apr 22, 2025•62

CAPTURe：通過遮擋物體計數評估視覺語言模型的空間推理能力
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal•Apr 21, 2025•52

IPBench：大型語言模型在知識產權領域的知識基準測試
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang•Apr 22, 2025•42

DiffVox：一種可微分模型，用於捕捉與分析專業效果分佈
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji•Apr 20, 2025•22