KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

SRMT: Gemeinsamer Speicher für Multi-Agenten lebenslanges Pfadfinden
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev•Jan 22, 2025•683

Verbesserung der Videogenerierung mit menschlichem Feedback.
Improving Video Generation with Human Feedback

Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang•Jan 23, 2025•504

Sigma: Differentielles Neuskalieren von Abfrage, Schlüssel und Wert für effiziente Sprachmodelle
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models

Zhenghao Lin, Zihao Tang, Xiao Liu, Yeyun Gong, Yi Cheng, Qi Chen, Hang Li, Ying Xin, Ziyue Yang, Kailai Yang, Yu Yan, Xiao Liang, Shuai Lu, Yiming Huang, Zheheng Luo, Lei Qu, Xuan Feng, Yaoxiang Wang, Yuqing Xia, Feiyang Chen, Yuting Jiang, Yasen Hu, Hao Ni, Binyang Li, Guoshuai Zhao, Jui-Hao Chiang, Zhongxin Guo, Chen Lin, Kun Kuang, Wenjie Li, Yelong Shen, Jian Jiao, Peng Cheng, Mao Yang•Jan 23, 2025•482

Können wir Bilder mit CoT generieren? Lassen Sie uns den Schritt-für-Schritt-Prozess der Bildgenerierung überprüfen und verstärken.
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng•Jan 23, 2025•422

Video-MMMU: Evaluierung des Wissenserwerbs aus Videos von multidisziplinären Fachleuten
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu•Jan 23, 2025•262

Optimierung der zeitlichen Präferenz für das Verständnis von Langformvideos
Temporal Preference Optimization for Long-Form Video Understanding

Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy•Jan 23, 2025•223

IMAGINE-E: Bewertung der Bildgenerationsintelligenz von State-of-the-art Text-zu-Bild-Modellen
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models

Jiayi Lei, Renrui Zhang, Xiangfei Hu, Weifeng Lin, Zhen Li, Wenjian Sun, Ruoyi Du, Le Zhuo, Zhongyu Li, Xinyue Li, Shitian Zhao, Ziyu Guo, Yiting Lu, Peng Gao, Hongsheng Li•Jan 23, 2025•172

Schrittweises KTO: Optimierung mathematischer Argumentation durch schrittweise binäres Feedback.
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback

Yen-Ting Lin, Di Jin, Tengyu Xu, Tianhao Wu, Sainbayar Sukhbaatar, Chen Zhu, Yun He, Yun-Nung Chen, Jason Weston, Yuandong Tian, Arash Rahnama, Sinong Wang, Hao Ma, Han Fang•Jan 18, 2025•153

DiffuEraser: Ein Diffusionsmodell für das Videofüllen
DiffuEraser: A Diffusion Model for Video Inpainting

Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo•Jan 17, 2025•142

Halluzinationen können große Sprachmodelle in der Arzneimittelforschung verbessern.
Hallucinations Can Improve Large Language Models in Drug Discovery

Shuzhou Yuan, Michael Färber•Jan 23, 2025•118

Ein-Promt-Eine-Geschichte: Frei-Mittagessen konsistente Text-zu-Bild Generierung unter Verwendung eines einzigen Prompts
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

Tao Liu, Kai Wang, Senmao Li, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang, Ming-Ming Cheng•Jan 23, 2025•92

EchoVideo: Identitätserhaltende menschliche Videogenerierung durch multimodale Merkmalsfusion
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion

Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo•Jan 23, 2025•72

Debatte fördert die Verallgemeinerung von schwach zu stark.
Debate Helps Weak-to-Strong Generalization

Hao Lang, Fei Huang, Yongbin Li•Jan 21, 2025•72

EmbodiedEval: Bewertung von Multimodalen Sprachmodellen als verkörperte Agenten
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun•Jan 21, 2025•72

Evolution und der Knight'sche Blinde Fleck des maschinellen Lernens
Evolution and The Knightian Blindspot of Machine Learning

Joel Lehman, Elliot Meyerson, Tarek El-Gaaly, Kenneth O. Stanley, Tarin Ziyaee•Jan 22, 2025•62

Kontrolliertes LLM: Kontrollierte Evolution zur Intelligenz-Bewahrung in LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM

Haichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu•Jan 19, 2025•62

GSTAR: Gaußsche Oberflächenverfolgung und Rekonstruktion
GSTAR: Gaussian Surface Tracking and Reconstruction

Chengwei Zheng, Lixin Xue, Juan Zarate, Jie Song•Jan 17, 2025•52