DPLM-2: Ein multimodales Diffusionsprotein-Sprachmodell
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Autoren: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Zusammenfassung
Proteine sind essentielle Makromoleküle, die durch ihre Aminosäuresequenzen definiert sind, welche ihre dreidimensionalen Strukturen bestimmen und folglich ihre Funktionen in allen lebenden Organismen. Daher erfordert die generative Proteinsmodellierung einen multimodalen Ansatz, um gleichzeitig Sequenzen und Strukturen zu modellieren, zu verstehen und zu generieren. Allerdings verwenden bestehende Methoden in der Regel separate Modelle für jede Modalität, was ihre Fähigkeit einschränkt, die komplexen Beziehungen zwischen Sequenz und Struktur zu erfassen. Dies führt zu suboptimaler Leistung bei Aufgaben, die ein gemeinsames Verständnis und die Generierung beider Modalitäten erfordern. In diesem Paper stellen wir DPLM-2 vor, ein multimodales Protein-Grundlagenmodell, das das diskrete Diffusionsprotein-Sprachmodell (DPLM) erweitert, um sowohl Sequenzen als auch Strukturen zu berücksichtigen. Um strukturelles Lernen mit dem Sprachmodell zu ermöglichen, werden 3D-Koordinaten mithilfe eines lookup-freien Quantisierungs-basierten Tokenizers in diskrete Tokens umgewandelt. Durch das Training sowohl an experimentellen als auch an hochwertigen synthetischen Strukturen lernt DPLM-2 die gemeinsame Verteilung von Sequenz und Struktur sowie ihre Marginal- und Bedingungswahrscheinlichkeiten. Wir implementieren auch eine effiziente Aufwärmstrategie, um die Verbindung zwischen großangelegten evolutionären Daten und strukturellen induktiven Vorurteilen aus vorab trainierten Sequenz-basierten Protein-Sprachmodellen auszunutzen. Die empirische Evaluation zeigt, dass DPLM-2 gleichzeitig hoch kompatible Aminosäuresequenzen und ihre entsprechenden 3D-Strukturen generieren kann, was einen zweistufigen Generierungsansatz überflüssig macht. Darüber hinaus zeigt DPLM-2 eine wettbewerbsfähige Leistung in verschiedenen bedingten Generierungsaufgaben, einschließlich Faltung, inverser Faltung und Gerüstbildung mit multimodalen Motiveingaben, sowie die Bereitstellung struktur-bewusster Darstellungen für prädiktive Aufgaben.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary