KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Qwen2.5-1M Technischer Bericht
Qwen2.5-1M Technical Report

An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang•Jan 26, 2025•713

Technischer Bericht zu Baichuan-Omni-1.5
Baichuan-Omni-1.5 Technical Report

Yadong Li, Jun Liu, Tao Zhang, Tao Zhang, Song Chen, Tianpeng Li, Zehuan Li, Lijun Liu, Lingfeng Ming, Guosheng Dong, Da Pan, Chong Li, Yuanbo Fang, Dongdong Kuang, Mingrui Wang, Chenglin Zhu, Youwei Zhang, Hongyu Guo, Fengyu Zhang, Yuran Wang, Bowen Ding, Wei Song, Xu Li, Yuqi Huo, Zheng Liang, Shusen Zhang, Xin Wu, Shuai Zhao, Linchu Xiong, Yozhen Wu, Jiahui Ye, Wenhao Lu, Bowen Li, Yan Zhang, Yaqi Zhou, Xin Chen, Lei Su, Hongda Zhang, Fuzhong Chen, Xuezhen Dong, Na Nie, Zhiying Wu, Bin Xiao, Ting Li, Shunya Dang, Ping Zhang, Yijia Sun, Jincheng Wu, Jinjie Yang, Xionghai Lin, Zhi Ma, Kegeng Wu, Jia li, Aiyuan Yang, Hui Liu, Jianqiang Zhang, Xiaoxi Chen, Guangwei Ai, Wentao Zhang, Yicong Chen, Xiaoqin Huang, Kun Li, Wenjing Luo, Yifei Duan, Lingling Zhu, Ran Xiao, Zhe Su, Jiani Pu, Dian Wang, Xu Jia, Tianyu Zhang, Mengyu Ai, Mang Wang, Yujing Qiao, Lei Zhang, Yanjun Shen, Fan Yang, Miao Zhen, Yijie Zhou, Mingyang Chen, Fei Li, Chenzheng Zhu, Keer Lu, Yaqi Zhao, Hao Liang, Youquan Li, Yanzhao Qin, Linzhuang Sun, Jianhua Xu, Haoze Sun, Mingan Lin, Zenan Zhou, Weipeng Chen•Jan 26, 2025•642

Auf dem Weg zu einem allgemeinen modellfreien Reinforcement-Learning-Modell
Towards General-Purpose Model-Free Reinforcement Learning

Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat•Jan 27, 2025•303

ARWKV: Pretraining ist nicht das, was wir brauchen, ein RNN-Aufmerksamkeits-basiertes Sprachmodell, das aus dem Transformer geboren wurde.
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao•Jan 26, 2025•252

Emilia: Ein umfangreiches, umfassendes, mehrsprachiges und vielfältiges Datenset für die Spracherzeugung
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu•Jan 27, 2025•172

iFormer: Integration von ConvNet und Transformer für mobile Anwendungen
iFormer: Integrating ConvNet and Transformer for Mobile Application

Chuanyang Zheng•Jan 26, 2025•132

Parameter vs. FLOPs: Skalierungsgesetze für optimale Sparsamkeit für Mixture-of-Experts Sprachmodelle
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak•Jan 21, 2025•112

CodeMonkeys: Skalierung der Rechenleistung zur Testzeit für Softwaretechnik
CodeMonkeys: Scaling Test-Time Compute for Software Engineering

Ryan Ehrlich, Bradley Brown, Jordan Juravsky, Ronald Clark, Christopher Ré, Azalia Mirhoseini•Jan 24, 2025•102

Sind Vision Language Models textur- oder formorientiert und können wir sie lenken?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper•Mar 14, 2024•92

Mischung aus Mamba: Verbesserung von Multi-Modalen Zustandsraummodellen durch modalitätsbewusste Sparsamkeit
Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity

Weixin Liang, Junhong Shen, Genghan Zhang, Ning Dong, Luke Zettlemoyer, Lili Yu•Jan 27, 2025•81

Visuelle Generierung ohne Anleitung.
Visual Generation Without Guidance

Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu•Jan 26, 2025•83

OpenCharacter: Training von anpassbaren Rollenspiel-LLMs mit groß angelegten synthetischen Persönlichkeiten.
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu•Jan 26, 2025•62

Rückkehr des Encoders: Maximierung der Parameter-Effizienz für Sprachmodellierungsmodelle
Return of the Encoder: Maximizing Parameter Efficiency for SLMs

Mohamed Elfeki, Rui Liu, Chad Voegele•Jan 27, 2025•52

Machbares Lernen
Feasible Learning

Juan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien•Jan 24, 2025•52