AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu•Jan 14, 2025•2736

망가닌자: 정확한 참조를 따라 선 아트 색칠
MangaNinja: Line Art Colorization with Precise Reference Following

Zhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo•Jan 14, 2025•573

3DIS-FLUX: DiT 렌더링을 사용한 간단하고 효율적인 다중 인스턴스 생성
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Dewei Zhou, Ji Xie, Zongxin Yang, Yi Yang•Jan 9, 2025•342

한 단계 비디오 생성을 위한 확산 적대적 사후 훈련
Diffusion Adversarial Post-Training for One-Step Video Generation

Shanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang•Jan 14, 2025•334

Omni-RGPT: 토큰 마크를 통해 이미지 및 비디오 영역 수준의 이해 통합
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Miran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma•Jan 14, 2025•322

패딩 톤: T2I 모델에서의 패딩 토큰에 대한 메커니즘 분석
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Michael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov•Jan 12, 2025•312

지침을 따르는 단일 세포 분석을 위한 멀티 모달 AI 동승자
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen•Jan 14, 2025•242

FramePainter: 비디오 확산을 활용한 대화형 이미지 편집 지식
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo•Jan 14, 2025•182

PokerBench: 대규모 언어 모델을 프로 포커 플레이어로 훈련하기
PokerBench: Training Large Language Models to become Professional Poker Players

Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli•Jan 14, 2025•172

HALoGEN: 환상적인 LLM 환각과 그 발견 위치
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi•Jan 14, 2025•172

컴팩트한 텍스트 인식 일차원 토큰을 활용한 텍스트-이미지 마스크 생성 모델의 민주화
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen•Jan 13, 2025•163

타시어2: 상세 비디오 설명에서 포괄적 비디오 이해로 대규모 비전-언어 모델 발전
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin•Jan 14, 2025•152

출력 중심 특징 설명을 활용한 자동 해석 능력 향상
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva•Jan 14, 2025•102

OpenCSG 중국어 말뭉치: LLM 훈련을 위한 일련의 고품질 중국어 데이터셋
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei•Jan 14, 2025•82

AfriHate: 아프리카 언어를 위한 혐오 발언과 학대 언어의 다중 언어 데이터셋
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum•Jan 14, 2025•62

비정형 텍스트 데이터의 대규모 언어 모델의 잠재력과 위험
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Rewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar•Jan 14, 2025•62

MatchAnything: 대규모 사전 훈련을 통한 범용 교차 모달리티 이미지 매칭
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Xingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou•Jan 13, 2025•53

그래프 내 추론 및 지식 확장을 위한 Graph-PReFLexOR을 사용한 현장 그래프 추론
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Markus J. Buehler•Jan 14, 2025•52