DPLM-2 : Un modèle de langue multimodal à diffusion de protéines
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Auteurs: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Résumé
Les protéines sont des macromolécules essentielles définies par leurs séquences d'acides aminés, qui déterminent leurs structures tridimensionnelles et, par conséquent, leurs fonctions dans tous les organismes vivants. Par conséquent, la modélisation générative des protéines nécessite une approche multimodale pour modéliser, comprendre et générer simultanément les séquences et les structures. Cependant, les méthodes existantes utilisent généralement des modèles séparés pour chaque modalité, limitant leur capacité à capturer les relations complexes entre séquence et structure. Cela se traduit par des performances sous-optimales dans les tâches qui nécessitent une compréhension conjointe et une génération des deux modalités. Dans cet article, nous présentons DPLM-2, un modèle de base multimodal pour les protéines qui étend le modèle de langage de protéines à diffusion discrète (DPLM) pour prendre en compte à la fois les séquences et les structures. Pour permettre l'apprentissage structurel avec le modèle de langage, les coordonnées 3D sont converties en jetons discrets à l'aide d'un tokenizer basé sur une quantification sans recherche de correspondance. En s'entraînant à la fois sur des structures expérimentales et des structures synthétiques de haute qualité, DPLM-2 apprend la distribution conjointe de séquence et de structure, ainsi que leurs marginales et conditionnelles. Nous mettons également en œuvre une stratégie efficace de préchauffage pour exploiter le lien entre les données évolutives à grande échelle et les biais inductifs structurels des modèles de langage de protéines pré-entraînés basés sur les séquences. L'évaluation empirique montre que DPLM-2 peut générer simultanément des séquences d'acides aminés hautement compatibles et leurs structures 3D correspondantes, éliminant ainsi le besoin d'une approche de génération en deux étapes. De plus, DPLM-2 démontre des performances compétitives dans diverses tâches de génération conditionnelle, y compris le repliement, le repliement inverse et l'échafaudage avec des entrées de motifs multimodales, tout en fournissant des représentations conscientes de la structure pour les tâches prédictives.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary