ChatPaper.aiChatPaper

Tägliche Papers

Video-R1: Stärkung der Video-Argumentation in MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs

Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu YueMar 27, 2025575

UI-R1: Verbesserung der Aktionsvorhersage von GUI-Agenten durch Reinforcement Learning
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng LiMar 27, 2025392

VBench-2.0: Weiterentwicklung der Benchmark-Suite für die Videogenerierung zur intrinsischen Authentizität
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei LiuMar 27, 2025251

Großes Sprachmodell-Agent: Eine Übersicht zu Methodik, Anwendungen und Herausforderungen
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Junyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming ZhangMar 27, 2025221

LeX-Art: Neudenken der Textgenerierung durch skalierbare Synthese hochwertiger Daten
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen LiMar 27, 2025191

Embodied-Reasoner: Synergie von visueller Suche, logischem Denken und Handeln für verkörperte interaktive Aufgaben
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting ZhuangMar 27, 2025142

FinAudio: Ein Benchmark für Audio-Großsprachmodelle in finanziellen Anwendungen
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun NieMar 26, 2025141

Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur Bildgenerierung
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng GaoMar 27, 2025121

Erforschung der Evolution der Physik-Kognition in der Videogenerierung: Ein Überblick
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin WangMar 27, 202591

ZJUKLAB bei SemEval-2025 Aufgabe 4: Verlernen durch Modellzusammenführung
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu ZhangMar 27, 202561

Synthetisches Video verbessert die physikalische Treue in der Videosynthese
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Qi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan WangMar 26, 202561

Feature4X: Brückenschlag von beliebigen monokularen Videos zu 4D-agentenbasierten KI-Systemen mit vielseitigen Gaußschen Merkmalfeldern
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta KadambiMar 26, 202551

Semantische Bibliotheksanpassung: LoRA-Retrieval und -Fusion für Open-Vocabulary-Semantische Segmentierung
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo PoggiMar 27, 202531

Einheitliche multimodale diskrete Diffusion
Unified Multimodal Discrete Diffusion

Alexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina FragkiadakiMar 26, 202531