Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

PyramidDrop : Accélération de vos grands modèles Vision-Language via la réduction de la redondance visuelle en pyramide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin•Oct 22, 2024•432

SpectroMotion : Reconstruction 3D dynamique de scènes spéculaires
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Cheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu•Oct 22, 2024•392

Alignement des grands modèles de langage via l'optimisation auto-directionnelle
Aligning Large Language Models via Self-Steering Optimization

Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin•Oct 22, 2024•213

Améliorer le Modèle de Langage Vision Raisonnement en Chaîne de Pensée
Improve Vision Language Model Chain-of-thought Reasoning

Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang•Oct 21, 2024•172

xGen-MM-Vid (BLIP-3-Vidéo) : Vous avez seulement besoin de 32 jetons pour représenter une vidéo même dans les VLM
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles•Oct 21, 2024•152

Atténuation de l'hallucination d'objets via une Attention Causale Concentrique
Mitigating Object Hallucination via Concentric Causal Attention

Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu•Oct 21, 2024•142

Optimisation des systèmes d'IA composés basée sur le LLM : Une enquête
LLM-based Optimization of Compound AI Systems: A Survey

Matthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu•Oct 21, 2024•132

JMMMU : Un banc d'essai japonais massif et multidisciplinaire pour l'évaluation consciente de la culture
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa•Oct 22, 2024•122

MiniPLM : Distillation de Connaissances pour la Pré-Entraînement des Modèles de Langage
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang•Oct 22, 2024•122

EvoPress : Vers une Compression Dynamique de Modèle Optimale via une Recherche Évolutive
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh•Oct 18, 2024•72

Neurochirurgie mathématique : Isoler les capacités de raisonnement mathématique des modèles de langage en n'utilisant que des passes avant.
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen•Oct 22, 2024•52

Avancées en coloscopie intelligente
Frontiers in Intelligent Colonoscopy

Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan•Oct 22, 2024•22

3DGS-Enhancer : Amélioration de la projection gaussienne 3D illimitée avec des priorités de diffusion 2D cohérentes avec la vue
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Xi Liu, Chaoyi Zhou, Siyu Huang•Oct 21, 2024•22