KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Die Lehren aus der Entwicklung von Prozessbelohnungsmodellen in mathematischem Denken
The Lessons of Developing Process Reward Models in Mathematical Reasoning

Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin•Jan 13, 2025•988

Tensor-Produkt-Aufmerksamkeit ist alles, was Sie brauchen.
Tensor Product Attention Is All You Need

Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao•Jan 11, 2025•885

BIOMEDICA: Ein offenes biomedizinisches Bildunterschriften-Archiv, Datensatz und Vision-Sprache-Modelle abgeleitet aus wissenschaftlicher Literatur.
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy•Jan 13, 2025•563

Transformer^2: Selbstadaptive LLMs
Transformer^2: Self-adaptive LLMs

Qi Sun, Edoardo Cetin, Yujin Tang•Jan 9, 2025•557

MinMo: Ein multimodales großes Sprachmodell für nahtlose Sprachinteraktion
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou•Jan 10, 2025•517

VideoAuteur: Auf dem Weg zur Generierung von langen narrativen Videos
VideoAuteur: Towards Long Narrative Video Generation

Junfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang•Jan 10, 2025•343

O1 Replikationsreise - Teil 3: Skalierung zur Inferenzzeit für medizinisches Schlussfolgern
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang•Jan 11, 2025•322

WebWalker: Benchmarking von LLMs beim Durchqueren des Webs
WebWalker: Benchmarking LLMs in Web Traversal

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang•Jan 13, 2025•193

SPAM: Spike-bewusstes Adam mit Momentenrücksetzung für stabiles LLM-Training
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Tianjin Huang, Ziquan Zhu, Gaojie Jin, Lu Liu, Zhangyang Wang, Shiwei Liu•Jan 12, 2025•162

Ungewöhnliche Objekte in 3D
UnCommon Objects in 3D

Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny•Jan 13, 2025•132

ChemAgent: Selbstaktualisierende Bibliothek in großen Sprachmodellen verbessert chemisches Denken.
ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Xiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin, Siru Ouyang, Wangchunshu Zhou, Pan Lu, Zhuosheng Zhang, Yilun Zhao, Arman Cohan, Mark Gerstein•Jan 11, 2025•112

Bewertung der Muster-Nützlichkeit für die Datenauswahl durch Nachahmung der Modellgewichte
Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan•Jan 12, 2025•52