ChatPaper.aiChatPaper

원자 속성 예측을 위한 데이터 효율적 사전 학습 방향으로

Towards Data-Efficient Pretraining for Atomic Property Prediction

February 16, 2025
저자: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

초록

본 논문은 최근의 원자 속성 예측 패러다임에 도전하여 진전을 데이터셋 크기와 계산 자원의 증가에 연결시키는 것을 제시합니다. 우리는 신중하게 선정된 작업 관련 데이터셋에서 사전 훈련을 통해 대규모 사전 훈련을 능가하거나 심지어 능가할 수 있음을 보여줍니다. 이를 위해 계산 비용의 1/24만 사용하면 됩니다. 우리는 분자 구조에 대한 컴퓨터 비전의 Fr\'echet Inception Distance에서 영감을 받은 새로운 측정 항목인 화학 유사성 지수 (CSI)를 소개합니다. 이는 상류 사전 훈련 데이터셋과 하류 작업 간의 정렬을 측정합니다. 최소 CSI 거리로 가장 관련성 높은 데이터셋을 선택함으로써, 작은 집중 데이터셋에서 사전 훈련된 모델이 관련 데이터셋을 포함한 대규모 혼합 데이터셋인 JMP와 같은 데이터셋에서 사전 훈련된 모델을 일관되게 능가함을 보여줍니다. 역설적으로, 추가 데이터를 무차별적으로 추가하는 것이 작업과 부적합하게 정렬된 경우 모델 성능을 저하시킬 수 있다는 것을 발견합니다. 우리의 연구 결과는 원자 속성 예측을 위한 사전 훈련에서 질이 종종 양을 능가한다는 점을 강조합니다.
English
This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Summary

AI-Generated Summary

PDF33February 18, 2025