AI研究論文每日精選

每日精選AI研究論文及翻譯

重新審視大規模圖像標題數據在預訓練多模態基礎模型中的應用
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang•Oct 3, 2024•552

SageAttention：準確的8位元注意力機制用於即插即用推論加速。
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen•Oct 3, 2024•505

深度 Pro：不到一秒鐘的銳利單眼度量深度
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun•Oct 2, 2024•422

使用合成數據進行視訊指導調校
Video Instruction Tuning With Synthetic Data

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li•Oct 3, 2024•393

Loong：使用自回歸語言模型生成長達分鐘級的視頻
Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu•Oct 3, 2024•383

對比式區域化語言-圖像預訓練
Contrastive Localized Language-Image Pre-Training

Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan•Oct 3, 2024•383

LLaVA-Critic：學習評估多模型
LLaVA-Critic: Learning to Evaluate Multimodal Models

Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li•Oct 3, 2024•363

大型語言模型作為馬可夫鏈
Large Language Models as Markov Chains

Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko•Oct 3, 2024•333

消除擴散模型中高引導比例的過飽和和人工痕跡
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber•Oct 3, 2024•314

VinePPO：透過精細化的信用分配釋放 LLM 推理的強化學習潛力
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux•Oct 2, 2024•252

在沒有指導訓練的情況下提煉端對端語音助手資料
Distilling an End-to-End Voice Assistant Without Instruction Training Data

William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang•Oct 3, 2024•235

上下文文件嵌入
Contextual Document Embeddings

John X. Morris, Alexander M. Rush•Oct 3, 2024•234

CLIP-MoE：朝向建立具有多樣化多重循環利用的 CLIP 專家混合模型
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng•Sep 28, 2024•202

在合成編輯序列上訓練語言模型可改善程式碼合成。
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

Ulyana Piterbarg, Lerrel Pinto, Rob Fergus•Oct 3, 2024•123

L-CiteEval：長文本模型是否真正善用上下文來回應？
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang•Oct 3, 2024•103

Open-RAG：使用開源大型語言模型進行增強檢索增強推理
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez•Oct 2, 2024•103

解讀和編輯視覺語言表示以減輕幻覺
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman•Oct 3, 2024•92

MedVisionLlama：利用預訓練的大型語言模型層來增強醫學影像分割
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel•Oct 3, 2024•95