AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

AndroidLab: 안드로이드 자율 에이전트의 훈련과 체계적인 벤치마킹
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

Yifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong•Oct 31, 2024•483

"BF16를 주시거나 죽음을 주시오"? LLM에서의 정확성-성능 트레이드오프를 언급합니다.
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh•Nov 4, 2024•443

WebRL: 자기 진화 온라인 커리큘럼을 통해 LLM 웹 에이전트를 훈련하는 강화 학습
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong•Nov 4, 2024•361

비디오 생성과 월드 모델 간의 거리: 물리 법칙 관점에서
How Far is Video Generation from World Model: A Physical Law Perspective

Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng•Nov 4, 2024•322

훈원-라지: 텐센트가 개발한 520억 개 활성화된 매개변수를 가진 오픈소스 MoE 모델
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Xingwu Sun, Yanfeng Chen, Yiqing Huang, Ruobing Xie, Jiaqi Zhu, Kai Zhang, Shuaipeng Li, Zhen Yang, Jonny Han, Xiaobo Shu, Jiahao Bu, Zhongzhi Chen, Xuemeng Huang, Fengzong Lian, Saiyong Yang, Jianfeng Yan, Yuyuan Zeng, Xiaoqin Ren, Chao Yu, Lulu Wu, Yue Mao, Tao Yang, Suncong Zheng, Kan Wu, Dian Jiao, Jinbao Xue, Xipeng Zhang, Decheng Wu, Kai Liu, Dengpeng Wu, Guanghui Xu, Shaohua Chen, Shuang Chen, Xiao Feng, Yigeng Hong, Junqiang Zheng, Chengcheng Xu, Zongwei Li, Xiong Kuang, Jianglu Hu, Yiqi Chen, Yuchi Deng, Guiyang Li, Ao Liu, Chenchen Zhang, Shihui Hu, Zilong Zhao, Zifan Wu, Yao Ding, Weichao Wang, Han Liu, Roberts Wang, Hao Fei, Peijie She, Ze Zhao, Xun Cao, Hai Wang, Fusheng Xiang, Mengyuan Huang, Zhiyuan Xiong, Bin Hu, Xuebin Hou, Lei Jiang, Jiajia Wu, Yaping Deng, Yi Shen, Qian Wang, Weijie Liu, Jie Liu, Meng Chen, Liang Dong, Weiwen Jia, Hu Chen, Feifei Liu, Rui Yuan, Huilin Xu, Zhenxiang Yan, Tengfei Cao, Zhichao Hu, Xinhua Feng, Dong Du, Tinghao She, Yangyu Tao, Feng Zhang, Jianchen Zhu, Chengzhong Xu, Xirui Li, Chong Zha, Wen Ouyang, Yinben Xia, Xiang Li, Zekun He, Rongpeng Chen, Jiawei Song, Ruibin Chen, Fan Jiang, Chongqing Zhao, Bo Wang, Hao Gong, Rong Gan, Winston Hu, Zhanhui Kang, Yong Yang, Yuhong Liu, Di Wang, Jie Jiang•Nov 4, 2024•241

MVPaint: 3D 물체에 대해 그림을 그리기 위한 동기화된 다중 뷰 확산
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Wei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan•Nov 4, 2024•231

언어 모델에서의 문화적 인식 조사: 텍스트 이상
Survey of Cultural Awareness in Language Models: Text and Beyond

Siddhesh Pawar, Junyeong Park, Jiho Jin, Arnav Arora, Junho Myung, Srishti Yadav, Faiz Ghifari Haznitrama, Inhwa Song, Alice Oh, Isabelle Augenstein•Oct 30, 2024•232

확산 트랜스포머를 위한 훈련 없는 지역 프롬프팅
Training-free Regional Prompting for Diffusion Transformers

Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang•Nov 4, 2024•231

GenXD: 3D 및 4D 장면 생성
GenXD: Generating Any 3D and 4D Scenes

Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang•Nov 4, 2024•201

확산 트랜스포머를 사용한 빠른 비디오 생성을 위한 적응형 캐싱
Adaptive Caching for Faster Video Generation with Diffusion Transformers

Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie•Nov 4, 2024•201

자연어로부터 물리적으로 현실적인 비디오 편집을 하는 AutoVFX: 지침
AutoVFX: Physically Realistic Video Editing from Natural Language Instructions

Hao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang•Nov 4, 2024•173

DynaMath: 시각 언어 모델의 수학 추론 강인성을 평가하기 위한 동적 시각 벤치마크
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang•Oct 29, 2024•155

다이나소어: 미리 정의된 동작을 넘어서는 대규모 언어 에이전트
DynaSaur: Large Language Agents Beyond Predefined Actions

Dang Nguyen, Viet Dac Lai, Seunghyun Yoon, Ryan A. Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, Tianyi Zhou•Nov 4, 2024•132

PPLLaVA: 프롬프트 지도를 활용한 다양한 비디오 시퀀스 이해
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Ruyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang•Nov 4, 2024•111

희소성 법칙: 더 큰 활성화를 갖는 대규모 언어 모델을 향하여 희소성
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun•Nov 4, 2024•111

SALSA: 강화 학습에서 더 강력한 적응을 위한 수프 기반 정렬 학습
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Atoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh•Nov 4, 2024•82

IGOR: 이미지-목표 표현은 신체를 갖춘 인공지능의 기초 모델에서의 원자 제어 단위입니다.
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

Xiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian•Oct 17, 2024•82

LIBMoE: 대형 언어 모델에서 Mixture of Experts를 포괄적으로 평가하기 위한 라이브러리
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham•Nov 1, 2024•82

어둠 물질 해독: 기초 모델에서 희귀한 개념을 해석하기 위한 전문 희소 오토인코더
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

Aashiq Muhamed, Mona Diab, Virginia Smith•Nov 1, 2024•62

제약된 확산 암시적 모델
Constrained Diffusion Implicit Models

Vivek Jayaram, Ira Kemelmacher-Shlizerman, Steven M. Seitz, John Thickstun•Nov 1, 2024•52

다중 전문가 프롬프팅은 대형 언어 모델의 신뢰성, 안전성 및 유용성을 향상시킵니다.
Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

Do Xuan Long, Duong Ngoc Yen, Anh Tuan Luu, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen•Nov 1, 2024•52

긴 문서 이해를 위한 대규모 다중 모달 모델의 맥락화 적응
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun•Nov 2, 2024•42

Swan과 ArabicMTEB: 방언을 인식하는, 아랍 중심의, 다국어 및 다문화 임베딩 모델 및 평가지표
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed•Nov 2, 2024•32