AI研究論文每日精選

每日精選AI研究論文及翻譯

電影生成：媒體基礎模型的演員陣容
Movie Gen: A Cast of Media Foundation Models

Adam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du•Oct 17, 2024•992

MixEval-X：來自真實世界數據混合的任意對任意評估
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh•Oct 17, 2024•762

JudgeBench：用於評估基於LLM的法官的基準
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica•Oct 16, 2024•482

流暢：通過連續標記擴展自回歸文本到圖像生成模型
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Lijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian•Oct 17, 2024•383

Janus：解耦視覺編碼以實現統一的多模態理解與生成
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo•Oct 17, 2024•354

通往使用大型語言模型實現超人類語音理解的路線圖
Roadmap towards Superhuman Speech Understanding using Large Language Models

Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li•Oct 17, 2024•352

MobA：一個用於高效行動任務自動化的雙層代理系統
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Zichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu•Oct 17, 2024•333

WorldCuisines：一個大規模的基準測試，用於全球美食的多語言和多文化視覺問答。
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Genta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo•Oct 16, 2024•333

利用網頁UI進行文本豐富的視覺理解
Harnessing Webpage UIs for Text-Rich Visual Understanding

Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue•Oct 17, 2024•322

DreamVideo-2：零樣本主題驅動視頻定制與精確運動控制
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan•Oct 17, 2024•252

MMed-RAG：用於醫學視覺語言模型的多功能多模式RAG系統
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Peng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao•Oct 16, 2024•233

MoH：多頭注意力作為注意力頭混合
MoH: Multi-Head Attention as Mixture-of-Head Attention

Peng Jin, Bo Zhu, Li Yuan, Shuicheng Yan•Oct 15, 2024•222

BenTo：具有上下文可轉移性的基準任務簡化
BenTo: Benchmark Task Reduction with In-Context Transferability

Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou•Oct 17, 2024•203

PopAlign：為了更全面的對齊而使對比模式多樣化
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Zekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang•Oct 17, 2024•192

OpenAI 的 o1 模型推理模式的比較研究
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Siwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu•Oct 17, 2024•192

在事後訓練的大規模模型中，對 Delta 參數編輯的統一觀點
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Qiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun•Oct 17, 2024•172

FlatQuant：對於LLM量化，平坦度至關重要。
FlatQuant: Flatness Matters for LLM Quantization

Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao•Oct 12, 2024•152

VidPanos：從隨意移動的影片生成全景影片
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Jingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole•Oct 17, 2024•132

LLM 具有政治正確性嗎？分析 AI 系統中的道德偏見與越獄漏洞
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Isack Lee, Haebin Seong•Oct 17, 2024•132

多層次語言模型能理解中文圖像背後的深層含義嗎？
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni•Oct 17, 2024•112

向前失敗：利用合成數據和檢索增強改進語音識別的生成式錯誤修正
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Sreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li•Oct 17, 2024•102

從互動中的回顧式學習
Retrospective Learning from Interactions

Zizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi•Oct 17, 2024•92

記憶、檢索和生成：理解無限視覺概念作為您的個性化助手
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue•Oct 17, 2024•92

MuVi：具有語義對齊和節奏同步的視頻轉音樂生成
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao•Oct 16, 2024•92

MedMobile：具有專家級臨床能力的手機尺寸語言模型
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Krithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann•Oct 11, 2024•92

γ-MoD：探索混合深度適應對於多模態大型語言模型的影響
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji•Oct 17, 2024•82

LoLDU：透過下三角-對角矩陣-上三角分解進行低秩適應，以實現參數高效微調。
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang•Oct 17, 2024•72

開放材料2024（OMat24）無機材料數據集與模型
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Luis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi•Oct 16, 2024•71

長LRM：廣泛覆蓋的長序列大重建模型，用於寬覆蓋高斯斑點。
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu•Oct 16, 2024•62

最小調整以解鎖具有高質量數據的LLMs的長輸出，數據為關鍵。
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao•Oct 14, 2024•62

通往無需引導的擴增實境視覺生成：透過條件對比對齊
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Huayu Chen, Hang Su, Peize Sun, Jun Zhu•Oct 12, 2024•52

AERO：用於高效私密推論的僅Softmax LLMs
AERO: Softmax-Only LLMs for Efficient Private Inference

Nandan Kumar Jha, Brandon Reagen•Oct 16, 2024•42

TransAgent：通過異質代理協作傳輸視覺語言基礎模型
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang•Oct 16, 2024•42

SBI-RAG：透過基於模式的教學和檢索增強生成來提升學生的數學應用問題解決能力
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Prakhar Dixit, Tim Oates•Oct 17, 2024•32