LLaMo: Großes Sprachmodellbasiertes Molekulargraphen-Assistent
LLaMo: Large Language Model-based Molecular Graph Assistant
October 31, 2024
Autoren: Jinyoung Park, Minseong Bae, Dohwan Ko, Hyunwoo J. Kim
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Verallgemeinerungs- und Anweisungsfolgefähigkeiten mit Anweisungsabstimmung gezeigt. Die Fortschritte bei LLMs und Anweisungsabstimmung haben zur Entwicklung großer Bild-Sprach-Modelle (LVLMs) geführt. Die Kompetenz der LLMs und Anweisungsabstimmung wurde jedoch im molekularen Bereich weniger erforscht. Daher schlagen wir LLaMo vor: Large Language Model-basierte molekulare Graph-Assistent, der ein end-to-end trainiertes großes molekulares Graph-Sprachmodell ist. Um die Diskrepanz zwischen den Sprach- und Graphmodalitäten zu überbrücken, präsentieren wir den mehrstufigen Graphprojektor, der Graphdarstellungen in Graph-Token umwandelt, indem er die Ausgabedarstellungen jeder GNN-Schicht und Motivdarstellungen mit dem Kreuz-Aufmerksamkeitsmechanismus abstrahiert. Wir führen auch maschinengenerierte molekulare Graph-Anweisungsdaten ein, um das große molekulare Graph-Sprachmodell für das allgemeine Verständnis von Molekülen und Sprache anzupassen. Unsere umfangreichen Experimente zeigen, dass LLaMo die beste Leistung bei verschiedenen Aufgaben wie der Generierung von molekularer Beschreibung, Eigenschaftsvorhersage und IUPAC-Namensvorhersage zeigt. Der Code von LLaMo ist verfügbar unter https://github.com/mlvlab/LLaMo.
English
Large Language Models (LLMs) have demonstrated remarkable generalization and
instruction-following capabilities with instruction tuning. The advancements in
LLMs and instruction tuning have led to the development of Large
Vision-Language Models (LVLMs). However, the competency of the LLMs and
instruction tuning have been less explored in the molecular domain. Thus, we
propose LLaMo: Large Language Model-based Molecular graph assistant, which is
an end-to-end trained large molecular graph-language model. To bridge the
discrepancy between the language and graph modalities, we present the
multi-level graph projector that transforms graph representations into graph
tokens by abstracting the output representations of each GNN layer and motif
representations with the cross-attention mechanism. We also introduce
machine-generated molecular graph instruction data to instruction-tune the
large molecular graph-language model for general-purpose molecule and language
understanding. Our extensive experiments demonstrate that LLaMo shows the best
performance on diverse tasks, such as molecular description generation,
property prediction, and IUPAC name prediction. The code of LLaMo is available
at https://github.com/mlvlab/LLaMo.Summary
AI-Generated Summary