KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

GuardReasoner: Auf dem Weg zu LLM-Schutzmechanismen auf Grundlage von Schlussfolgerungen.
GuardReasoner: Towards Reasoning-based LLM Safeguards

Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi•Jan 30, 2025•873

Gedanken sind überall verstreut: Über das Unterdenken von o1-ähnlichen LLMs.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu•Jan 30, 2025•6111

Streaming DiLoCo mit überlappenden Kommunikationen: Auf dem Weg zu einem verteilten Gratisessen
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Arthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham•Jan 30, 2025•307

o3-mini vs DeepSeek-R1: Welches ist sicherer?
o3-mini vs DeepSeek-R1: Which One is Safer?

Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura•Jan 30, 2025•243

Große Sprachmodelle denken zu schnell, um effektiv zu erkunden.
Large Language Models Think Too Fast To Explore Effectively

Lan Pan, Hanbo Xie, Robert C. Wilson•Jan 29, 2025•243

MedXpertQA: Bewertung von Expertenqualität in medizinischem Denken und Verstehen
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou•Jan 30, 2025•222

WILDCHAT-50M: Eine eingehende Untersuchung der Rolle von synthetischen Daten im Anschluss-Training
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Benjamin Feuer, Chinmay Hegde•Jan 30, 2025•204

SANA 1.5: Effiziente Skalierung der Rechenleistung für das Training und die Inferenzzeit im Linearen Diffusions-Transformer
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han•Jan 30, 2025•192

PhysBench: Benchmarking und Verbesserung von Vision-Language-Modellen für das Verständnis der physischen Welt
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang•Jan 27, 2025•193

CowPilot: Ein Rahmenwerk für autonome und kollaborative Web-Navigation zwischen Menschen und Agenten.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig•Jan 28, 2025•72