AI研究論文每日精選

每日精選AI研究論文及翻譯

MiniMax-01：使用閃電關注機制擴展基礎模型
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu•Jan 14, 2025•2585

MangaNinja：使用精確參考追蹤的線條著色
MangaNinja: Line Art Colorization with Precise Reference Following

Zhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo•Jan 14, 2025•483

3DIS-FLUX：使用DiT渲染的簡單高效多實例生成
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang•Jan 9, 2025•322

填充調性：對於 T2I 模型中填充標記的機制分析
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov•Jan 12, 2025•312

Omni-RGPT：通過標記符號統一圖像和視頻區域級理解
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma•Jan 14, 2025•302

擴散對抗式事後訓練用於一步驟影片生成
Diffusion Adversarial Post-Training for One-Step Video Generation

Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang•Jan 14, 2025•294

一個多模式人工智慧共同操作員，用於單細胞分析與指導。
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen•Jan 14, 2025•242

FramePainter：賦予互動式圖像編輯與視訊擴散先驗
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo•Jan 14, 2025•172

利用具備緊湊文本感知一維標記的模型，實現將文本到圖像遮罩生成模型民主化。
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen•Jan 13, 2025•162

HALoGEN：奇幻LLM幻覺及其尋找之道
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi•Jan 14, 2025•162

PokerBench：訓練大型語言模型成為專業撲克玩家
PokerBench: Training Large Language Models to become Professional Poker Players

Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli•Jan 14, 2025•132

Tarsier2：從詳細視頻描述推進大型視覺語言模型至全面視頻理解
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin•Jan 14, 2025•122

通過以輸出為中心的特徵描述來增強自動可解釋性
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva•Jan 14, 2025•102

OpenCSG 中文語料庫：用於 LLM 訓練的一系列高質量中文數據集
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei•Jan 14, 2025•72

大型語言模型作為非結構化文本數據的判斷者的潛力與危險
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Rewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar•Jan 14, 2025•62

MatchAnything：通用跨模態圖像匹配與大規模預訓練
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou•Jan 13, 2025•53

AfriHate：一個包含非洲語言仇恨言論和虐待性語言的多語言數據集
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum•Jan 14, 2025•52

利用Graph-PReFLexOR進行現場圖推理和知識擴展
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Markus J. Buehler•Jan 14, 2025•32