AI研究論文每日精選

每日精選AI研究論文及翻譯

PyramidDrop：透過金字塔視覺冗餘減少來加速您的大型視覺語言模型
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin•Oct 22, 2024•482

光譜運動：具有鏡面場景的動態三維重建
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Cheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu•Oct 22, 2024•432

改善視覺語言模型的思維鏈推理
Improve Vision Language Model Chain-of-thought Reasoning

Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang•Oct 21, 2024•272

透過自導向優化來對齊大型語言模型
Aligning Large Language Models via Self-Steering Optimization

Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin•Oct 22, 2024•233

xGen-MM-Vid（BLIP-3-Video）：您只需要32個令牌來表示一段影片，即使在VLMs中。
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles•Oct 21, 2024•182

通過同心因果注意力來減輕物件幻覺
Mitigating Object Hallucination via Concentric Causal Attention

Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu•Oct 21, 2024•172

MiniPLM：用於預訓練語言模型的知識蒸餾
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang•Oct 22, 2024•162

JMMMU：一個針對文化意識評估的日本大規模多學科多模態理解基準。
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa•Oct 22, 2024•152

基於LLM的複合人工智慧系統優化：一項調查
LLM-based Optimization of Compound AI Systems: A Survey

Matthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu•Oct 21, 2024•152

EvoPress：透過進化搜尋朝向最佳動態模型壓縮
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh•Oct 18, 2024•92

數學神經外科手術：僅利用前向傳遞來分離語言模型的數學推理能力
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen•Oct 22, 2024•82

3DGS-Enhancer：透過與視角一致的2D擴散先驗來增強無界3D高斯潑灑
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Xi Liu, Chaoyi Zhou, Siyu Huang•Oct 21, 2024•52

智能結腸鏡的前沿
Frontiers in Intelligent Colonoscopy

Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan•Oct 22, 2024•42