AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

REINFORCE++: 대규모 언어 모델을 정렬하는 간단하고 효율적인 방법
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jian Hu•Jan 4, 2025•902

물리적 AI를 위한 코스모스 월드 재담 모델 플랫폼
Cosmos World Foundation Model Platform for Physical AI

NVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski•Jan 7, 2025•692

LLaVA-Mini: 하나의 비전 토큰으로 효율적인 이미지 및 비디오 대규모 다중 모달 모델
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng•Jan 7, 2025•504

Sa2VA: 이미지와 비디오의 밀도 있는 그라운드 이해를 위해 SAM2와 LLaVA를 결합하기
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang•Jan 7, 2025•422

MotionBench: 시각 언어 모델을 위한 세밀한 비디오 움직임 이해의 벤치마킹 및 개선
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang•Jan 6, 2025•402

셰이더로서의 확산: 다목적 비디오 생성 제어를 위한 3D 인식 비디오 확산
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu•Jan 7, 2025•232

PPTAgent: 텍스트에서 슬라이드로의 발표 생성 및 평가를 넘어서
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun•Jan 7, 2025•203

OpenOmni: 대형 언어 모델이 실시간 자가인식 감정 음성 합성을 통해 언어 간 제로샷 옴니모달 정렬을 피벗합니다.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang•Jan 8, 2025•164

돌핀: 생각, 실천 및 피드백을 통한 폐쇄 루프 열린 자동 연구
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou•Jan 7, 2025•153

매직 미러: 비디오 확산 속 ID 보존 비디오 생성 트랜스포머
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia•Jan 7, 2025•152

텍스트를 세분화하고 언어 모델에서 RLHF를 향상시키기 위해 보상을 학습하는 지침
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou•Jan 6, 2025•92

MoDec-GS: 전역에서 지역으로의 동작 분해 및 시간 간격 조정을 위한 간결한 동적 3D 가우시안 스플래팅
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim•Jan 7, 2025•92

트랜스포머의 적응적 동적을 위한 그래프 인식 이송 헤드
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Markus J. Buehler•Jan 4, 2025•82

MagicFace: 액션 유닛 제어를 통한 고품질 얼굴 표정 편집
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Mengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao•Jan 4, 2025•52

텍스트로 안내되는 이미지 대 이미지 확산 모델을 위한 일반화 가능한 원천 식별
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang•Jan 4, 2025•32