AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OmniGen: 통합 이미지 생성
OmniGen: Unified Image Generation

Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu•Sep 17, 2024•1157

NVLM: 오픈 프론티어-클래스 다중 모달 LLMs
NVLM: Open Frontier-Class Multimodal LLMs

Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping•Sep 17, 2024•752

이미지 조건부 확산 모델의 세밀 조정은 생각보다 쉽습니다.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe•Sep 17, 2024•312

Phidias: 텍스트, 이미지 및 3D 조건에서 참조 증강 확산을 사용하여 3D 콘텐츠를 생성하는 생성 모델
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau•Sep 17, 2024•282

프롬트리버: 지시로 훈련된 리트리버는 언어 모델처럼 프롬프트될 수 있습니다.
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel•Sep 17, 2024•242

EzAudio: 효율적 확산 Transformer를 활용한 텍스트-음성 생성 향상
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

Jiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu•Sep 17, 2024•203

양자화된 명령어 조정 대형 언어 모델의 포괄적 평가: 405B까지의 실험적 분석
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon•Sep 17, 2024•173

OSV: 고품질 이미지에서 비디오 생성에는 한 단계만으로 충분합니다.
OSV: One Step is Enough for High-Quality Image to Video Generation

Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang•Sep 17, 2024•142

에이전트 기반 모델에서의 에이전시 한계에 대한 연구
On the limits of agency in agent-based models

Ayush Chopra, Shashank Kumar, Nurullah Giray-Kuru, Ramesh Raskar, Arnau Quera-Bofarull•Sep 14, 2024•142

불연속 지형에서의 민첩한 연속 점프
Agile Continuous Jumping in Discontinuous Terrains

Yuxiang Yang, Guanya Shi, Changyi Lin, Xiangyun Meng, Rosario Scalise, Mateo Guaman Castro, Wenhao Yu, Tingnan Zhang, Ding Zhao, Jie Tan, Byron Boots•Sep 17, 2024•122

스플랏 필드: 희소한 3D 및 4D 재구성을 위한 신경 가우시안 스플랏
SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction

Marko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer•Sep 17, 2024•92

RAG에서 LLM의 신뢰성 측정과 향상을 위한 Grounded 속성 및 거부 학습을 통한 방법.
Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Maojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria•Sep 17, 2024•72

기초 모델에서의 인간과 유사한 정서적 인지
Human-like Affective Cognition in Foundation Models

Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman•Sep 18, 2024•62

암시적 신경 표현을 위한 단일층 학습 가능 활성화 (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)

Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu•Sep 17, 2024•52

PDMX: 상징 음악 처리를 위한 대규모 공개 도메인 MusicXML 데이터셋
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley•Sep 17, 2024•52

Fourier Kolmogorov-Arnold 네트워크를 사용한 암묵적 신경 표현
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks

Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari, Ilker Hacihaliloglu•Sep 14, 2024•52