Tägliche Papers
Video-R1: Stärkung der Video-Argumentation in MLLMsVideo-R1: Reinforcing Video Reasoning in MLLMs
Video-R1: Stärkung der Video-Argumentation in MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs
Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue•Mar 27, 2025•575
UI-R1: Verbesserung der Aktionsvorhersage von GUI-Agenten durch Reinforcement LearningUI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement
Learning
UI-R1: Verbesserung der Aktionsvorhersage von GUI-Agenten durch Reinforcement Learning
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement
Learning
Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li•Mar 27, 2025•392
Herausforderung der Grenzen des logischen Denkens: Ein mathematischer Benchmark auf Olympiade-Niveau für große SprachmodelleChallenging the Boundaries of Reasoning: An Olympiad-Level Math
Benchmark for Large Language Models
Herausforderung der Grenzen des logischen Denkens: Ein mathematischer Benchmark auf Olympiade-Niveau für große Sprachmodelle
Challenging the Boundaries of Reasoning: An Olympiad-Level Math
Benchmark for Large Language Models
Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen•Mar 27, 2025•303
VBench-2.0: Weiterentwicklung der Benchmark-Suite für die Videogenerierung zur intrinsischen AuthentizitätVBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic
Faithfulness
VBench-2.0: Weiterentwicklung der Benchmark-Suite für die Videogenerierung zur intrinsischen Authentizität
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic
Faithfulness
Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu•Mar 27, 2025•251
Großes Sprachmodell-Agent: Eine Übersicht zu Methodik, Anwendungen und HerausforderungenLarge Language Model Agent: A Survey on Methodology, Applications and
Challenges
Großes Sprachmodell-Agent: Eine Übersicht zu Methodik, Anwendungen und Herausforderungen
Large Language Model Agent: A Survey on Methodology, Applications and
Challenges
Junyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang•Mar 27, 2025•221
LeX-Art: Neudenken der Textgenerierung durch skalierbare Synthese hochwertiger DatenLeX-Art: Rethinking Text Generation via Scalable High-Quality Data
Synthesis
LeX-Art: Neudenken der Textgenerierung durch skalierbare Synthese hochwertiger Daten
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data
Synthesis
Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li•Mar 27, 2025•191
ReaRAG: Wissensgesteuertes Denken verbessert die Faktentreue großer Denkmodelle durch iterative Retrieval-Augmented GenerationReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large
Reasoning Models with Iterative Retrieval Augmented Generation
ReaRAG: Wissensgesteuertes Denken verbessert die Faktentreue großer Denkmodelle durch iterative Retrieval-Augmented Generation
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large
Reasoning Models with Iterative Retrieval Augmented Generation
Zhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li•Mar 27, 2025•161
ResearchBench: Bewertung von LLMs in der wissenschaftlichen Entdeckung durch auf Inspiration basierende AufgabenzerlegungResearchBench: Benchmarking LLMs in Scientific Discovery via
Inspiration-Based Task Decomposition
ResearchBench: Bewertung von LLMs in der wissenschaftlichen Entdeckung durch auf Inspiration basierende Aufgabenzerlegung
ResearchBench: Benchmarking LLMs in Scientific Discovery via
Inspiration-Based Task Decomposition
Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou•Mar 27, 2025•151
Embodied-Reasoner: Synergie von visueller Suche, logischem Denken und Handeln für verkörperte interaktive AufgabenEmbodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for
Embodied Interactive Tasks
Embodied-Reasoner: Synergie von visueller Suche, logischem Denken und Handeln für verkörperte interaktive Aufgaben
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for
Embodied Interactive Tasks
Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang•Mar 27, 2025•142
FinAudio: Ein Benchmark für Audio-Großsprachmodelle in finanziellen AnwendungenFinAudio: A Benchmark for Audio Large Language Models in Financial
Applications
FinAudio: Ein Benchmark für Audio-Großsprachmodelle in finanziellen Anwendungen
FinAudio: A Benchmark for Audio Large Language Models in Financial
Applications
Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie•Mar 26, 2025•141
Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur BildgenerierungLumina-Image 2.0: A Unified and Efficient Image Generative Framework
Lumina-Image 2.0: Ein einheitliches und effizientes Framework zur Bildgenerierung
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao•Mar 27, 2025•121
ChatAnyone: Stilisierte Echtzeit-Porträtvideo-Generierung mit hierarchischem BewegungsdiffusionsmodellChatAnyone: Stylized Real-time Portrait Video Generation with
Hierarchical Motion Diffusion Model
ChatAnyone: Stilisierte Echtzeit-Porträtvideo-Generierung mit hierarchischem Bewegungsdiffusionsmodell
ChatAnyone: Stylized Real-time Portrait Video Generation with
Hierarchical Motion Diffusion Model
Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo•Mar 27, 2025•122
Optimale Schrittweite für Diffusions-SamplingOptimal Stepsize for Diffusion Sampling
Optimale Schrittweite für Diffusions-Sampling
Optimal Stepsize for Diffusion Sampling
Jianning Pei, Han Hu, Shuyang Gu•Mar 27, 2025•101
Erforschung der Evolution der Physik-Kognition in der Videogenerierung: Ein ÜberblickExploring the Evolution of Physics Cognition in Video Generation: A
Survey
Erforschung der Evolution der Physik-Kognition in der Videogenerierung: Ein Überblick
Exploring the Evolution of Physics Cognition in Video Generation: A
Survey
Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang•Mar 27, 2025•91
ZJUKLAB bei SemEval-2025 Aufgabe 4: Verlernen durch ModellzusammenführungZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
ZJUKLAB bei SemEval-2025 Aufgabe 4: Verlernen durch Modellzusammenführung
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang•Mar 27, 2025•61
Synthetisches Video verbessert die physikalische Treue in der VideosyntheseSynthetic Video Enhances Physical Fidelity in Video Synthesis
Synthetisches Video verbessert die physikalische Treue in der Videosynthese
Synthetic Video Enhances Physical Fidelity in Video Synthesis
Qi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang•Mar 26, 2025•61
Feature4X: Brückenschlag von beliebigen monokularen Videos zu 4D-agentenbasierten KI-Systemen mit vielseitigen Gaußschen MerkmalfeldernFeature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile
Gaussian Feature Fields
Feature4X: Brückenschlag von beliebigen monokularen Videos zu 4D-agentenbasierten KI-Systemen mit vielseitigen Gaußschen Merkmalfeldern
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile
Gaussian Feature Fields
Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi•Mar 26, 2025•51
LLPut: Untersuchung von Large Language Models zur Eingabegenerierung basierend auf FehlerberichtenLLPut: Investigating Large Language Models for Bug Report-Based Input
Generation
LLPut: Untersuchung von Large Language Models zur Eingabegenerierung basierend auf Fehlerberichten
LLPut: Investigating Large Language Models for Bug Report-Based Input
Generation
Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman•Mar 26, 2025•41
Semantische Bibliotheksanpassung: LoRA-Retrieval und -Fusion für
Open-Vocabulary-Semantische SegmentierungSemantic Library Adaptation: LoRA Retrieval and Fusion for
Open-Vocabulary Semantic Segmentation
Semantische Bibliotheksanpassung: LoRA-Retrieval und -Fusion für
Open-Vocabulary-Semantische Segmentierung
Semantic Library Adaptation: LoRA Retrieval and Fusion for
Open-Vocabulary Semantic Segmentation
Reza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi•Mar 27, 2025•31
Einheitliche multimodale diskrete DiffusionUnified Multimodal Discrete Diffusion
Einheitliche multimodale diskrete Diffusion
Unified Multimodal Discrete Diffusion
Alexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki•Mar 26, 2025•31
LOCATEdit: Graph-Laplacian-optimierte Cross-Attention für lokalisiertes textgesteuertes BildbearbeitenLOCATEdit: Graph Laplacian Optimized Cross Attention for Localized
Text-Guided Image Editing
LOCATEdit: Graph-Laplacian-optimierte Cross-Attention für lokalisiertes textgesteuertes Bildbearbeiten
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized
Text-Guided Image Editing
Achint Soni, Meet Soni, Sirisha Rambhatla•Mar 27, 2025•11
Tracktention: Nutzung von Punktverfolgung zur schnelleren und besseren Verarbeitung von VideosTracktention: Leveraging Point Tracking to Attend Videos Faster and
Better
Tracktention: Nutzung von Punktverfolgung zur schnelleren und besseren Verarbeitung von Videos
Tracktention: Leveraging Point Tracking to Attend Videos Faster and
Better
Zihang Lai, Andrea Vedaldi•Mar 25, 2025•11