ChatPaper.aiChatPaper

자연어LM: 과학적 발견을 위한 자연어 해독

NatureLM: Deciphering the Language of Nature for Scientific Discovery

February 11, 2025
저자: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin
cs.AI

초록

기초 모델은 자연어 처리 및 인공 지능을 혁신적으로 바꿔놓았으며, 기계가 인간 언어를 이해하고 생성하는 방식을 현저히 향상시켰습니다. 이러한 기초 모델의 성공을 바탕으로, 연구자들은 작은 분자, 물질, 단백질, DNA 및 RNA을 포함한 개별 과학 분야를 위한 기초 모델을 개발해왔습니다. 그러나 이러한 모델들은 일반적으로 격리된 상태에서 훈련되어 다른 과학 분야 간 통합 능력이 부족합니다. 이러한 분야 내 개체들이 모두 순서로 표현될 수 있다는 인식하에, 이들이 "자연의 언어"를 형성하는 시퀀스로 모델을 소개합니다. 이 모델은 과학적 발견을 위해 설계된 시퀀스 기반 과학 기초 모델인 Nature Language Model(NatureLM)을 소개합니다. 여러 과학 분야의 데이터로 사전 훈련된 NatureLM은 다양한 응용 프로그램을 가능하게 하는 통합적이고 다용도 모델을 제공합니다. 이 응용 프로그램에는 다음이 포함됩니다: (i) 텍스트 지침을 사용하여 작은 분자, 단백질, RNA 및 물질을 생성하고 최적화하는 것; (ii) 단백질에서 분자 및 단백질에서 RNA으로의 생성/설계와 같은 교차 영역 생성/설계; (iii) SMILES-to-IUPAC 번역 및 USPTO-50k에서의 역합성과 같은 작업에서 최첨단 성능 달성. NatureLM은 약물 발견(히트 생성/최적화, ADMET 최적화, 합성), 신소재 설계, 그리고 치료용 단백질 또는 뉴클레예티드의 개발을 포함한 다양한 과학적 작업을 위한 유망한 종합주의 접근법을 제공합니다. 우리는 다양한 크기(10억, 80억 및 467억 파라미터)의 NatureLM 모델을 개발하였으며, 모델 크기가 증가함에 따라 성능이 명확히 향상되는 것을 관찰하였습니다.
English
Foundation models have revolutionized natural language processing and artificial intelligence, significantly enhancing how machines comprehend and generate human languages. Inspired by the success of these foundation models, researchers have developed foundation models for individual scientific domains, including small molecules, materials, proteins, DNA, and RNA. However, these models are typically trained in isolation, lacking the ability to integrate across different scientific domains. Recognizing that entities within these domains can all be represented as sequences, which together form the "language of nature", we introduce Nature Language Model (briefly, NatureLM), a sequence-based science foundation model designed for scientific discovery. Pre-trained with data from multiple scientific domains, NatureLM offers a unified, versatile model that enables various applications including: (i) generating and optimizing small molecules, proteins, RNA, and materials using text instructions; (ii) cross-domain generation/design, such as protein-to-molecule and protein-to-RNA generation; and (iii) achieving state-of-the-art performance in tasks like SMILES-to-IUPAC translation and retrosynthesis on USPTO-50k. NatureLM offers a promising generalist approach for various scientific tasks, including drug discovery (hit generation/optimization, ADMET optimization, synthesis), novel material design, and the development of therapeutic proteins or nucleotides. We have developed NatureLM models in different sizes (1 billion, 8 billion, and 46.7 billion parameters) and observed a clear improvement in performance as the model size increases.

Summary

AI-Generated Summary

PDF182February 12, 2025