2024년 오픈 소스 무기물 데이터셋 및 모델 (OMat24)

Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

October 16, 2024
저자: Luis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi
cs.AI

초록

원하는 특성을 가진 새로운 물질을 발견하는 능력은 기후 변화 완화부터 차세대 컴퓨팅 하드웨어 발전에 이르기까지 다양한 응용 분야에 중요합니다. 인공지능은 화학 공간을 더 효과적으로 탐색하거나 시행착오에 비해 물질 발견과 설계를 가속화하는 잠재력을 가지고 있습니다. 물질 데이터, 벤치마크, 및 모델에 대해 상당한 진전이 이루어졌지만, 공개적으로 이용 가능한 훈련 데이터와 사전 훈련된 모델의 부족이라는 장벽이 나타났습니다. 이를 해결하기 위해, 우리는 대규모 공개 데이터셋인 Open Materials 2024 (OMat24)와 그에 수반하는 사전 훈련된 모델 세트인 Meta FAIR 릴리스를 제시합니다. OMat24는 구조적 및 구성 다양성에 초점을 맞춘 1억 1천만 개 이상의 밀도 기능 이론 (DFT) 계산을 포함하고 있습니다. 우리의 EquiformerV2 모델은 Matbench Discovery 리더보드에서 최고 수준의 성능을 달성하며, 기초 상태 안정성 및 생성 에너지를 0.9 이상의 F1 점수와 각각 20 meV/원자의 정확도로 예측할 수 있습니다. 우리는 OMat24, MPtraj, 그리고 Alexandria를 포함한 다양한 데이터셋을 통해 모델 크기, 보조 제거 목표, 그리고 성능에 대한 파인 튜닝의 영향을 탐구합니다. OMat24 데이터셋과 모델의 공개 릴리스는 연구 커뮤니티가 우리의 노력을 기반으로 발전하고 AI 지원 물질 과학 분야에서 더 나은 진전을 이끌어내도록 돕습니다.
English
The ability to discover new materials with desirable properties is critical for numerous applications from helping mitigate climate change to advances in next generation computing hardware. AI has the potential to accelerate materials discovery and design by more effectively exploring the chemical space compared to other computational methods or by trial-and-error. While substantial progress has been made on AI for materials data, benchmarks, and models, a barrier that has emerged is the lack of publicly available training data and open pre-trained models. To address this, we present a Meta FAIR release of the Open Materials 2024 (OMat24) large-scale open dataset and an accompanying set of pre-trained models. OMat24 contains over 110 million density functional theory (DFT) calculations focused on structural and compositional diversity. Our EquiformerV2 models achieve state-of-the-art performance on the Matbench Discovery leaderboard and are capable of predicting ground-state stability and formation energies to an F1 score above 0.9 and an accuracy of 20 meV/atom, respectively. We explore the impact of model size, auxiliary denoising objectives, and fine-tuning on performance across a range of datasets including OMat24, MPtraj, and Alexandria. The open release of the OMat24 dataset and models enables the research community to build upon our efforts and drive further advancements in AI-assisted materials science.

Summary

AI-Generated Summary

PDF61November 16, 2024