ChatPaper.aiChatPaper

Gumbel-Softmax Flow Matching mit Straight-Through Guidance für die kontrollierbare Erzeugung biologischer Sequenzen

Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation

March 21, 2025
Autoren: Sophia Tang, Yinuo Zhang, Alexander Tong, Pranam Chatterjee
cs.AI

Zusammenfassung

Flow Matching im kontinuierlichen Simplex hat sich als vielversprechende Strategie für das Design von DNA-Sequenzen erwiesen, stößt jedoch bei der Skalierung auf höhere Simplex-Dimensionen, die für die Peptid- und Proteingenerierung erforderlich sind, an Grenzen. Wir stellen Gumbel-Softmax Flow und Score Matching vor, ein generatives Framework auf dem Simplex, das auf einem neuartigen Gumbel-Softmax-Interpolanten mit einer zeitabhängigen Temperatur basiert. Mit diesem Interpolanten führen wir Gumbel-Softmax Flow Matching ein, indem wir ein parametrisiertes Geschwindigkeitsfeld ableiten, das von glatten kategorialen Verteilungen zu Verteilungen transportiert, die an einem einzelnen Scheitelpunkt des Simplex konzentriert sind. Alternativ präsentieren wir Gumbel-Softmax Score Matching, das lernt, den Gradienten der Wahrscheinlichkeitsdichte zu regressieren. Unser Framework ermöglicht eine hochwertige, vielfältige Generierung und skaliert effizient auf höherdimensionale Simplizes. Um ein trainingsfreies Guidance zu ermöglichen, schlagen wir Straight-Through Guided Flows (STGFlow) vor, eine klassifikatorbasierte Guidance-Methode, die Straight-Through-Schätzer nutzt, um das unbedingte Geschwindigkeitsfeld in Richtung optimaler Scheitelpunkte des Simplex zu lenken. STGFlow ermöglicht eine effiziente Inferenzzeit-Guidance mit auf sauberen Sequenzen vortrainierten Klassifikatoren und kann mit jeder diskreten Flow-Methode verwendet werden. Zusammen bilden diese Komponenten ein robustes Framework für die kontrollierbare de novo Sequenzgenerierung. Wir demonstrieren state-of-the-art Leistungen im konditionalen Design von DNA-Promotoren, der sequenzbasierten Proteingenerierung und dem Design von zielbindenden Peptiden für die Behandlung seltener Krankheiten.
English
Flow matching in the continuous simplex has emerged as a promising strategy for DNA sequence design, but struggles to scale to higher simplex dimensions required for peptide and protein generation. We introduce Gumbel-Softmax Flow and Score Matching, a generative framework on the simplex based on a novel Gumbel-Softmax interpolant with a time-dependent temperature. Using this interpolant, we introduce Gumbel-Softmax Flow Matching by deriving a parameterized velocity field that transports from smooth categorical distributions to distributions concentrated at a single vertex of the simplex. We alternatively present Gumbel-Softmax Score Matching which learns to regress the gradient of the probability density. Our framework enables high-quality, diverse generation and scales efficiently to higher-dimensional simplices. To enable training-free guidance, we propose Straight-Through Guided Flows (STGFlow), a classifier-based guidance method that leverages straight-through estimators to steer the unconditional velocity field toward optimal vertices of the simplex. STGFlow enables efficient inference-time guidance using classifiers pre-trained on clean sequences, and can be used with any discrete flow method. Together, these components form a robust framework for controllable de novo sequence generation. We demonstrate state-of-the-art performance in conditional DNA promoter design, sequence-only protein generation, and target-binding peptide design for rare disease treatment.

Summary

AI-Generated Summary

PDF42March 26, 2025