AI研究論文每日精選

每日精選AI研究論文及翻譯

種子音樂：一個統一框架，用於高質量和可控音樂生成。
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Ye Bai, Haonan Chen, Jitong Chen, Zhuo Chen, Yi Deng, Xiaohong Dong, Lamtharn Hantrakul, Weituo Hao, Qingqing Huang, Zhongyi Huang, Dongya Jia, Feihu La, Duc Le, Bochen Li, Chumin Li, Hui Li, Xingxing Li, Shouda Liu, Wei-Tsung Lu, Yiqing Lu, Andrew Shaw, Janne Spijkervet, Yakun Sun, Bo Wang, Ju-Chiang Wang, Yuping Wang, Yuxuan Wang, Ling Xu, Yifeng Yang, Chao Yao, Shuo Zhang, Yang Zhang, Yilin Zhang, Hang Zhao, Ziyi Zhao, Dejian Zhong, Shicen Zhou, Pei Zou•Sep 13, 2024•543

科爾莫哥洛夫-阿諾德變換器
Kolmogorov-Arnold Transformer

Xingyi Yang, Xinchao Wang•Sep 16, 2024•465

檢索注意力：通過向量檢索加速長文本LLM推理
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu•Sep 16, 2024•442

jina-embeddings-v3：具有任務LoRA的多語言嵌入
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao•Sep 16, 2024•326

視覺與語言中的一個缺失環節：對漫畫理解的調查
One missing piece in Vision and Language: A Survey on Comics Understanding

Emanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas•Sep 14, 2024•262

Ferret：用於大型語言模型的規模化聯合全參數調整
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

Yao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu•Sep 10, 2024•162

思維圖譜
On the Diagram of Thought

Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao•Sep 16, 2024•142

ReCLAP：通過描述聲音來改善零樣本音頻分類
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha•Sep 13, 2024•132

引導視覺問答模型的選擇：跨任務、領域和知識類型
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

Neelabh Sinha, Vinija Jain, Aman Chadha•Sep 14, 2024•92

基於電子健康記錄，預測病人胸部X光影像的時間變化。
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

Daeun Kyung, Junu Kim, Tackeun Kim, Edward Choi•Sep 11, 2024•42

beeFormer：在推薦系統中橋接語義相似性與交互作用相似性之間的鴻溝
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

Vojtěch Vančura, Pavel Kordík, Milan Straka•Sep 16, 2024•32

以LLM為基礎的字素轉音轉換：基準測試與案例研究
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee•Sep 13, 2024•31

AI研究論文每日精選

種子音樂：一個統一框架，用於高質量和可控音樂生成。
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

科爾莫哥洛夫-阿諾德變換器
Kolmogorov-Arnold Transformer

檢索注意力：通過向量檢索加速長文本LLM推理
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

jina-embeddings-v3：具有任務LoRA的多語言嵌入
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

視覺與語言中的一個缺失環節：對漫畫理解的調查
One missing piece in Vision and Language: A Survey on Comics Understanding

Ferret：用於大型語言模型的規模化聯合全參數調整
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

思維圖譜
On the Diagram of Thought

ReCLAP：通過描述聲音來改善零樣本音頻分類
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

引導視覺問答模型的選擇：跨任務、領域和知識類型
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

在強化學習遷移學習中的政策過濾，用於微調用於程式碼生成的大型語言模型
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

破解 reCAPTCHAv2
Breaking reCAPTCHAv2

AudioBERT：音訊知識增強語言模型
AudioBERT: Audio Knowledge Augmented Language Model

基於電子健康記錄，預測病人胸部X光影像的時間變化。
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

beeFormer：在推薦系統中橋接語義相似性與交互作用相似性之間的鴻溝
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

以LLM為基礎的字素轉音轉換：基準測試與案例研究
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

Support

AI研究論文每日精選

種子音樂：一個統一框架，用於高質量和可控音樂生成。
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

科爾莫哥洛夫-阿諾德變換器
Kolmogorov-Arnold Transformer

檢索注意力：通過向量檢索加速長文本LLM推理
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

jina-embeddings-v3：具有任務LoRA的多語言嵌入
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

視覺與語言中的一個缺失環節：對漫畫理解的調查
One missing piece in Vision and Language: A Survey on Comics Understanding

Ferret：用於大型語言模型的規模化聯合全參數調整
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

思維圖譜
On the Diagram of Thought

ReCLAP：通過描述聲音來改善零樣本音頻分類
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

引導視覺問答模型的選擇：跨任務、領域和知識類型
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

在強化學習遷移學習中的政策過濾，用於微調用於程式碼生成的大型語言模型
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

破解 reCAPTCHAv2
Breaking reCAPTCHAv2

AudioBERT：音訊知識增強語言模型
AudioBERT: Audio Knowledge Augmented Language Model

基於電子健康記錄，預測病人胸部X光影像的時間變化。
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

beeFormer：在推薦系統中橋接語義相似性與交互作用相似性之間的鴻溝
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

以LLM為基礎的字素轉音轉換：基準測試與案例研究
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study