DPLM-2: Een multimodaal Diffusie Proteïne Taalmodel
DPLM-2: A Multimodal Diffusion Protein Language Model
October 17, 2024
Auteurs: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
cs.AI
Samenvatting
Eiwitten zijn essentiële macromoleculen gedefinieerd door hun aminozuurvolgordes, die hun driedimensionale structuren bepalen en bijgevolg hun functies in alle levende organismen. Daarom vereist generatieve eiwitmodellering een multimodale benadering om gelijktijdig zowel sequenties als structuren te modelleren, begrijpen en genereren. Bestaande methoden gebruiken echter doorgaans afzonderlijke modellen voor elke modaliteit, wat hun vermogen beperkt om de complexe relaties tussen sequentie en structuur vast te leggen. Dit resulteert in suboptimale prestaties bij taken die een gezamenlijk begrip en generatie van beide modaliteiten vereisen. In dit artikel introduceren we DPLM-2, een multimodaal eiwitgrondslagmodel dat het discrete diffusie-eiwittaalmodel (DPLM) uitbreidt om zowel sequenties als structuren te accommoderen. Om structureel leren met het taalmodel mogelijk te maken, worden 3D-coördinaten omgezet in discrete tokens met behulp van een op kwantisering gebaseerde tokenizer zonder opzoektabel. Door te trainen op zowel experimentele als hoogwaardige synthetische structuren leert DPLM-2 de gezamenlijke verdeling van sequentie en structuur, evenals hun marginals en conditionals. We implementeren ook een efficiënte opwarmstrategie om de connectie tussen grootschalige evolutionaire data en structurele inductieve vooroordelen van vooraf getrainde op sequenties gebaseerde eiwittaalmodellen te benutten. Empirische evaluatie toont aan dat DPLM-2 tegelijkertijd zeer compatibele aminozuursequenties en hun overeenkomstige 3D-structuren kan genereren, waardoor de noodzaak voor een tweestaps generatiebenadering wordt geëlimineerd. Bovendien toont DPLM-2 competitieve prestaties bij verschillende conditionele generatietaken, waaronder vouwen, omgekeerd vouwen en stellagebouw met multimodale motiefinputs, evenals het bieden van structuurbewuste representaties voor voorspellende taken.
English
Proteins are essential macromolecules defined by their amino acid sequences,
which determine their three-dimensional structures and, consequently, their
functions in all living organisms. Therefore, generative protein modeling
necessitates a multimodal approach to simultaneously model, understand, and
generate both sequences and structures. However, existing methods typically use
separate models for each modality, limiting their ability to capture the
intricate relationships between sequence and structure. This results in
suboptimal performance in tasks that requires joint understanding and
generation of both modalities. In this paper, we introduce DPLM-2, a multimodal
protein foundation model that extends discrete diffusion protein language model
(DPLM) to accommodate both sequences and structures. To enable structural
learning with the language model, 3D coordinates are converted to discrete
tokens using a lookup-free quantization-based tokenizer. By training on both
experimental and high-quality synthetic structures, DPLM-2 learns the joint
distribution of sequence and structure, as well as their marginals and
conditionals. We also implement an efficient warm-up strategy to exploit the
connection between large-scale evolutionary data and structural inductive
biases from pre-trained sequence-based protein language models. Empirical
evaluation shows that DPLM-2 can simultaneously generate highly compatible
amino acid sequences and their corresponding 3D structures eliminating the need
for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive
performance in various conditional generation tasks, including folding, inverse
folding, and scaffolding with multimodal motif inputs, as well as providing
structure-aware representations for predictive tasks.Summary
AI-Generated Summary