AI研究論文每日精選

每日精選AI研究論文及翻譯

STAR：利用文本到視頻模型的時空增強進行現實世界視頻超分辨率
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai•Jan 6, 2025•513

測試時間計算：從系統一思考到系統二思考
Test-time Computing: from System-1 Thinking to System-2 Thinking

Yixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang•Jan 5, 2025•402

BoostStep：通過改進單步推理來增強大型語言模型的數學能力
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•352

Dispider：透過解耦感知、決策和反應，實現具有主動實時互動功能的視頻LLMs
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•333

大型語言模型的個性化基於圖形的檢索
Personalized Graph-Based Retrieval for Large Language Models

Steven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed•Jan 4, 2025•282

浮點量化訓練的比例定律
Scaling Laws for Floating Point Quantization Training

Xingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang•Jan 5, 2025•252

TransPixar：透明度提升文本到影片生成
TransPixar: Advancing Text-to-Video Generation with Transparency

Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen•Jan 6, 2025•224

METAGENE-1：用於疫情監測的宏基因組基礎模型
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger•Jan 3, 2025•212

透過口罩：基於口罩的運動軌跡用於圖像到視頻的生成
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak•Jan 6, 2025•192

GS-DiT：透過高效密集的3D點追蹤推進偽4D高斯場的視頻生成。
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li•Jan 5, 2025•172

自動 RT：針對大型語言模型的紅隊自動越獄策略探索
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun•Jan 3, 2025•172

DepthMaster：馴服擴散模型以進行單眼深度估計
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang•Jan 5, 2025•154

PRMBench：一個細粒度且具挑戰性的流程級獎勵模型基準測試
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng•Jan 6, 2025•142

ToolHop：一個以查詢驅動的基準測試，用於評估多跳工具使用的大型語言模型
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen•Jan 5, 2025•103

AutoPresent：從頭設計結構化視覺化
AutoPresent: Designing Structured Visuals from Scratch

Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell•Jan 1, 2025•82

Samba-asr 是一種利用結構化狀態空間模型的最先進語音識別技術。
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi•Jan 6, 2025•83