KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Langzeitkontext-Autoregressive Videomodellierung mit Vorhersage des nächsten Bildes
Long-Context Autoregressive Video Modeling with Next-Frame Prediction

Yuchao Gu, Weijia Mao, Mike Zheng Shou•Mar 25, 2025•692

Skalierung des Vision-Pre-Trainings auf 4K-Auflösung
Scaling Vision Pre-Training to 4K Resolution

Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin•Mar 25, 2025•372

Skalierung zur Inferenzzeit für Flussmodelle durch stochastische Generierung und Rollover-Budget-Erzwingung
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung•Mar 25, 2025•314

Untersuchung von Halluzinationen großer multimodaler Modelle im Verständnis von Videos: Benchmark, Analyse und Minderung
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang•Mar 25, 2025•294

CoMP: Kontinuierliches multimodales Pre-Training für visuelle Basismodelle
CoMP: Continual Multimodal Pre-training for Vision Foundation Models

Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang•Mar 24, 2025•291

Denken Sie zweimal nach: Verbesserung des LLM-Denkens durch Skalierung des mehrstufigen Testzeit-Denkens
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li•Mar 25, 2025•245

Fälschungen erkennen: Synthetische Bilderkennung mit großen multimodalen Modellen und Artefakt-Erklärung
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li•Mar 19, 2025•193

MDocAgent: Ein Multi-Modales Multi-Agenten-Framework für das Verständnis von Dokumenten
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding

Siwei Han, Peng Xia, Ruiyi Zhang, Tong Sun, Yun Li, Hongtu Zhu, Huaxiu Yao•Mar 18, 2025•162

ReSearch: Lernen zu schlussfolgern durch Suche für LLMs mittels Verstärkungslernen
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Fan Yang, Zenan Zhou, Weipeng Chen, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen•Mar 25, 2025•143

CoLLM: Ein großes Sprachmodell für zusammengesetzte Bildretrieval
CoLLM: A Large Language Model for Composed Image Retrieval

Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava•Mar 25, 2025•112

WikiAutoGen: Auf dem Weg zur Multi-Modalen Wikipedia-Artikel-Generierung
WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Zhongyu Yang, Jun Chen, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny•Mar 24, 2025•92

Latentraum-Super-Resolution für die Erzeugung höher aufgelöster Bilder mit Diffusionsmodellen
Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim•Mar 24, 2025•91

FullDiT: Multitask-Video-Generatives Grundmodell mit vollständiger Aufmerksamkeit
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu•Mar 25, 2025•82

DiffPortrait360: Konsistente Porträt-Diffusion für 360-Grad-Ansichtssynthese
DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

Yuming Gu, Phong Tran, Yujian Zheng, Hongyi Xu, Heyuan Li, Adilbek Karmanov, Hao Li•Mar 19, 2025•82

FirePlace: Geometrische Verfeinerungen des gesunden Menschenverstands von LLMs für die 3D-Objektplatzierung
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi•Mar 6, 2025•72

LookAhead Tuning: Sicherere Sprachmodelle durch Teilantwort-Vorschauen
LookAhead Tuning: Safer Language Models via Partial Answer Previews

Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen•Mar 24, 2025•53

PhysTwin: Physik-informierte Rekonstruktion und Simulation deformierbarer Objekte aus Videos
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos

Hanxiao Jiang, Hao-Yu Hsu, Kaifeng Zhang, Hsin-Ni Yu, Shenlong Wang, Yunzhu Li•Mar 23, 2025•52

Effiziente Modellentwicklung durch Feinabstimmung von Transferlernen
Efficient Model Development through Fine-tuning Transfer

Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu•Mar 25, 2025•42

FRESA: Vorwärtsgerichtete Rekonstruktion personalisierter Skinned Avatare aus wenigen Bildern
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh•Mar 24, 2025•42

xKV: Cross-Layer-SVD zur KV-Cache-Kompression
xKV: Cross-Layer SVD for KV-Cache Compression

Chi-Chih Chang, Chien-Yu Lin, Yash Akhauri, Wei-Cheng Lin, Kai-Chiang Wu, Luis Ceze, Mohamed S. Abdelfattah•Mar 24, 2025•41

Gumbel-Softmax Flow Matching mit Straight-Through Guidance für die kontrollierbare Erzeugung biologischer Sequenzen
Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee•Mar 21, 2025•42

Starke Baseline: Multi-UAV-Tracking mittels YOLOv12 mit BoT-SORT-ReID
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

Yu-Hsi Chen•Mar 21, 2025•45

Wenn Worte die Vision übertreffen: VLMs können sich selbst durch textbasierte Trainings für menschenzentrierte Entscheidungsfindung verbessern
When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

Zhe Hu, Jing Li, Yu Yin•Mar 21, 2025•42

LLaVAction: Bewertung und Training multimodaler großer Sprachmodelle für die Handlungserkennung
LLaVAction: evaluating and training multi-modal large language models for action recognition

Shaokai Ye, Haozhe Qi, Alexander Mathis, Mackenzie W. Mathis•Mar 24, 2025•32

OpenCity3D: Was wissen Vision-Sprach-Modelle über urbane Umgebungen?
OpenCity3D: What do Vision-Language Models know about Urban Environments?

Valentin Bieri, Marco Zamboni, Nicolas S. Blumer, Qingxuan Chen, Francis Engelmann•Mar 21, 2025•32

Auf dem Weg zu einem einheitlichen Copernicus-Foundation-Modell für die Erdbeobachtung
Towards a Unified Copernicus Foundation Model for Earth Vision

Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu•Mar 14, 2025•33

Können Vision-Sprach-Modelle Face-to-Face-Fragen in der realen Welt beantworten?
Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic•Mar 25, 2025•22

Überwindung von Vokabularinkongruenzen: Vokabular-agnostisches, lehrergestütztes Sprachmodellieren
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong•Mar 24, 2025•22

Frequenzdynamische Faltung für dichte Bildvorhersage
Frequency Dynamic Convolution for Dense Image Prediction

Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu•Mar 24, 2025•22

Any6D: Modellfreie 6D-Positionsschätzung von neuartigen Objekten
Any6D: Model-free 6D Pose Estimation of Novel Objects

Taeyeop Lee, Bowen Wen, Minjun Kang, Gyuree Kang, In So Kweon, Kuk-Jin Yoon•Mar 24, 2025•22

LPOSS: Label-Propagation über Patches und Pixel für Open-Vocabulary-Semantiksegmentierung
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias•Mar 25, 2025•12

ST-VLM: Kinematische Instruktionsoptimierung für räumlich-zeitliches Schließen in Vision-Sprach-Modellen
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models

Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim•Mar 25, 2025•11

Co-SemDepth: Schnelle gemeinsame semantische Segmentierung und Tiefenschätzung auf Luftbildern
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

Yara AlaaEldin, Francesca Odone•Mar 23, 2025•02