AI研究論文每日精選

每日精選AI研究論文及翻譯

MM1.5：從多模態LLM微調中的方法、分析和見解
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang•Sep 30, 2024•573

標尺：一種與模型無關的方法，用於控制大型語言模型生成的長度
Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Jiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang•Sep 27, 2024•302

超連結
Hyper-Connections

Defa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou•Sep 29, 2024•234

DiaSynth -- 合成對話生成框架
DiaSynth -- Synthetic Dialogue Generation Framework

Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng•Sep 25, 2024•213

注意力機制：具餘弦注意力的線性轉換器
Cottention: Linear Transformers With Cosine Attention

Gabriel Mongaras, Trevor Dohm, Eric C. Larson•Sep 27, 2024•175

UniAff：一種統一的表徵，用於工具使用和與視覺語言模型的表達
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu•Sep 30, 2024•154

利用異質預訓練Transformer擴展本體感視覺學習
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He•Sep 30, 2024•142

擴散模型的圖像複製偵測
Image Copy Detection for Diffusion Models

Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang•Sep 30, 2024•143

模型能否從範例中學習技能組合？
Can Models Learn Skill Composition from Examples?

Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora•Sep 29, 2024•102

Coffee-Gym：一個用於評估和改進錯誤程式碼上的自然語言反饋的環境。
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Hyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo•Sep 29, 2024•103

多模式大型語言模型上的視覺問題分解
Visual Question Decomposition on Multimodal Large Language Models

Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu•Sep 28, 2024•92

IDEAW: 具有可逆雙嵌入的強健神經音頻水印技術
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding

Pengcheng Li, Xulong Zhang, Jing Xiao, Jianzong Wang•Sep 29, 2024•22