AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

대규모 이미지 캡션 데이터를 다시 검토하여 다중 모달 기반 모델 사전 훈련하기
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang•Oct 3, 2024•552

SageAttention: 플러그 앤 플레이 추론을 위한 정확한 8비트 어텐션 가속화
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen•Oct 3, 2024•505

깊이 프로: 1초 미만의 시간 내에 날카로운 단안 메트릭 깊이
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun•Oct 2, 2024•422

합성 데이터를 활용한 비디오 지시 조정
Video Instruction Tuning With Synthetic Data

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li•Oct 3, 2024•393

Loong: 자기 회귀 언어 모델을 사용하여 분 단위 장영상 생성
Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu•Oct 3, 2024•383

대조적으로 지역화된 언어-이미지 사전 훈련
Contrastive Localized Language-Image Pre-Training

Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan•Oct 3, 2024•383

LLaVA-Critic: 다중 모달 모델 평가 학습
LLaVA-Critic: Learning to Evaluate Multimodal Models

Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li•Oct 3, 2024•363

대규모 언어 모델을 마르코프 체인으로 사용하기
Large Language Models as Markov Chains

Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko•Oct 3, 2024•333

확산 모델에서 과총포화와 높은 가이드 스케일의 아티팩트 제거
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber•Oct 3, 2024•314

VinePPO: 정교한 신용 할당을 통해 LLM 추론을 위한 RL 잠재력 해제
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux•Oct 2, 2024•252

지시 훈련 없이 엔드 투 엔드 음성 어시스턴트 축소하기 데이터
Distilling an End-to-End Voice Assistant Without Instruction Training Data

William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang•Oct 3, 2024•235

맥락적 문서 임베딩
Contextual Document Embeddings

John X. Morris, Alexander M. Rush•Oct 3, 2024•234

CLIP-MoE: 다양한 다중 업사이클링을 위한 CLIP의 전문가 혼합물 구축을 향하여
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng•Sep 28, 2024•202

합성 편집 시퀀스로 언어 모델을 훈련시키면 코드 합성이 개선됩니다.
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus•Oct 3, 2024•123

L-CiteEval: 긴 맥락 모델이 정말로 응답을 위해 맥락을 활용하는가?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang•Oct 3, 2024•103

Open-RAG: 오픈 소스 대형 언어 모델을 활용한 향상된 검색 보강 추론
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez•Oct 2, 2024•103

환각 완화를 위한 시각-언어 표현 해석 및 편집
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman•Oct 3, 2024•92

MedVisionLlama: 사전 훈련된 대형 언어 모델 레이어를 활용하여 의료 이미지 분할 향상
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel•Oct 3, 2024•95

자기 학습과 반사적 트리 탐색을 활용하여 자율적 AI 에이전트 향상하기
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning

Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu•Oct 2, 2024•92

MVGS: 새로운 뷰 합성을 위한 다중 뷰 조절 가우시안 스플래팅
MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis

Xiaobiao Du, Yida Wang, Xin Yu•Oct 2, 2024•83

Vinoground: 짧은 비디오를 통한 밀도 있는 시간적 추론에 대한 LMMs의 검토
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

Jianrui Zhang, Mu Cai, Yong Jae Lee•Oct 3, 2024•72

카오스의 가장자리에 위치한 지능
Intelligence at the Edge of Chaos

Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk•Oct 3, 2024•62

Synthio: 합성 데이터를 활용한 소규모 오디오 분류 데이터셋 보강
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha•Oct 2, 2024•62

SciPrompt: 과학 주제의 세분화된 범주화를 위한 지식 증강 프롬프팅
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics

Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner•Oct 2, 2024•43