AI研究論文每日精選

每日精選AI研究論文及翻譯

BitNet b1.58 2B4T 技術報告
BitNet b1.58 2B4T Technical Report

Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei•Apr 16, 2025•512

ReTool：大型語言模型中策略性工具使用的強化學習
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong•Apr 15, 2025•452

ColorBench：視覺語言模型能否看見並理解多彩世界？一個全面的色彩感知、推理與魯棒性基準測試
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou•Apr 10, 2025•444

Cobra：利用更廣泛參考實現高效線稿上色
Cobra: Efficient Line Art COlorization with BRoAder References

Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan•Apr 16, 2025•232

AlayaDB：高效長上下文LLM推理的數據基礎
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang•Apr 14, 2025•232

SFT 還是 RL？對訓練 R1 類推理大型視覺語言模型的早期探索
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie•Apr 10, 2025•202

REPA-E：解鎖VAE以實現潛在擴散變壓器的端到端調優
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Xingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng•Apr 14, 2025•172

SIFT-50M：一個用於語音指令微調的大規模多語言數據集
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz•Apr 12, 2025•152

MLRC-Bench：語言代理能否解決機器學習研究挑戰？
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang•Apr 13, 2025•132

邁向學習完成LiDAR中的任何任務
Towards Learning to Complete Anything in Lidar

Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep•Apr 16, 2025•92

強健且細緻的AI生成文本檢測
Robust and Fine-Grained Detection of AI Generated Texts

Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq•Apr 16, 2025•92

Vivid4D：通過視頻修復提升單目視頻的四維重建
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Jiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao•Apr 15, 2025•82

思維的合相：以最小自由解析提升LLM的思維鏈
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Chenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen•Apr 13, 2025•82

BlockGaussian：基於自適應塊狀高斯潑濺的高效大規模場景新視角合成
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Yongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou•Apr 12, 2025•62

FreshStack：構建用於評估技術文件檢索的真實基準
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov•Apr 17, 2025•33

「這並非我的真實呈現」：探討合成AI語音服務中的口音偏見與數位排斥現象
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh•Apr 12, 2025•22