KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

PyramidDrop: Beschleunigung Ihrer großen Vision-Language-Modelle durch Pyramid Visual Redundanzreduktion
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin•Oct 22, 2024•432

SpectroMotion: Dynamische 3D-Rekonstruktion von spiegelnden Szenen
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Cheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu•Oct 22, 2024•392

Ausrichtung großer Sprachmodelle durch Selbstlenkende Optimierung
Aligning Large Language Models via Self-Steering Optimization

Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin•Oct 22, 2024•213

Verbessern Sie das Vision Language Model durch kettenden Gedankenprozess-Reasoning.
Improve Vision Language Model Chain-of-thought Reasoning

Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang•Oct 21, 2024•172

xGen-MM-Vid (BLIP-3-Video): Es sind nur 32 Tokens erforderlich, um ein Video selbst in VLMs darzustellen.
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles•Oct 21, 2024•152

Die Minderung von Objekthalluzinationen durch konzentrische kausale Aufmerksamkeit.
Mitigating Object Hallucination via Concentric Causal Attention

Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu•Oct 21, 2024•142

LLM-basierte Optimierung von Verbund-KI-Systemen: Eine Übersicht
LLM-based Optimization of Compound AI Systems: A Survey

Matthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu•Oct 21, 2024•132

JMMMU: Ein japanischer umfassender multidisziplinärer multimodaler Verständnisbenchmark für kulturbewusste Bewertung
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa•Oct 22, 2024•122

MiniPLM: Wissensverdichtung für das Vor-Training von Sprachmodellen
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang•Oct 22, 2024•122

EvoPress: Auf dem Weg zur optimalen dynamischen Modellkompression durch evolutionäre Suche
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh•Oct 18, 2024•72

Mathematische Neurochirurgie: Isolierung der mathematischen Denkfähigkeiten von Sprachmodellen ausschließlich durch Vorwärtspässe
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen•Oct 22, 2024•52

Neuigkeiten in der intelligenten Koloskopie
Frontiers in Intelligent Colonoscopy

Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan•Oct 22, 2024•22

3DGS-Enhancer: Verbesserung der unbeschränkten 3D-Gauß-Splatting mit ansichtskonsistenten 2D-Diffusionsprioritäten
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Xi Liu, Chaoyi Zhou, Siyu Huang•Oct 21, 2024•22