AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

PyramidDrop: 피라미드를 통한 대형 비전-언어 모델 가속화를 통한 시각 중복성 감소
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin•Oct 22, 2024•482

스펙트로모션: 반사 장면의 동적 3D 재구성
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

Cheng-De Fan, Chen-Wei Chang, Yi-Ruei Liu, Jie-Ying Lee, Jiun-Long Huang, Yu-Chee Tseng, Yu-Lun Liu•Oct 22, 2024•432

시각 언어 모델의 사고 연쇄 추론 개선
Improve Vision Language Model Chain-of-thought Reasoning

Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang•Oct 21, 2024•272

자가 조종 최적화를 통한 대규모 언어 모델 정렬
Aligning Large Language Models via Self-Steering Optimization

Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin•Oct 22, 2024•233

xGen-MM-Vid (BLIP-3-비디오): 비디오를 표현하기 위해 32개의 토큰만 필요합니다 심지어 VLMs에서
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles•Oct 21, 2024•182

동심원 인과 주의를 통해 객체 환각 완화하기
Mitigating Object Hallucination via Concentric Causal Attention

Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu•Oct 21, 2024•172

MiniPLM: 사전 훈련 언어 모델을 위한 지식 증류
MiniPLM: Knowledge Distillation for Pre-Training Language Models

Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang•Oct 22, 2024•162

JMMMU: 일본 대규모 다학제 다중 모달 이해를 위한 문화 인식 평가 벤치마크
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa•Oct 22, 2024•152

화합 인공지능 시스템의 LLM 기반 최적화: 조사
LLM-based Optimization of Compound AI Systems: A Survey

Matthieu Lin, Jenny Sheng, Andrew Zhao, Shenzhi Wang, Yang Yue, Yiran Wu, Huan Liu, Jun Liu, Gao Huang, Yong-Jin Liu•Oct 21, 2024•152

EvoPress: 진화 검색을 통한 최적의 동적 모델 압축으로의 진화
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh•Oct 18, 2024•92

수학 신경외과: 언어 모델의 수학 추론 능력을 순방향 패스만 사용하여 분리하기
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes

Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen•Oct 22, 2024•82

3DGS-Enhancer: 시야 일관성 있는 2D 확산 사전을 활용한 무제한 3D 가우시안 스플래팅 향상
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors

Xi Liu, Chaoyi Zhou, Siyu Huang•Oct 21, 2024•52

지능적 대장 내시경의 선두 주자
Frontiers in Intelligent Colonoscopy

Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan•Oct 22, 2024•42