METAGENE-1: パンデミックモニタリングのためのメタゲノミクス基盤モデル
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
著者: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
要旨
我々は、新しいコーパスである多様なメタゲノムDNAおよびRNA配列からなる1.5兆塩基対以上から構成されるMETAGENE-1と呼ばれる70億パラメータの自己回帰トランスフォーマーモデルを事前学習します。このデータセットは、人間の下水から収集された大規模なサンプルから取得され、深層メタゲノミクス(次世代)シーケンシング手法を用いて処理およびシーケンスされています。個々のゲノムまたは特定の種の編成されたセットに焦点を当てるゲノムモデルとは異なり、METAGENE-1の目的は、この下水中に存在するゲノム情報の全体的な分布を捉え、パンデミック監視や病原体検出に関連するタスクを支援することです。我々は、メタゲノミクス配列に適したデータセットに対してバイトペアエンコーディング(BPE)トークン化を実施し、その後モデルを事前学習します。本論文では、事前学習データセット、トークン化戦略、およびモデルアーキテクチャについて詳細に説明し、メタゲノミクスデータの効果的なモデリングを可能にする考慮事項と設計選択を強調します。次に、このモデルをメタゲノミクスデータセットで事前学習した結果を示し、事前学習の過程での損失、システムメトリクス、およびトレーニングの安定性に関する詳細を提供します。最後に、METAGENE-1のパフォーマンスを示し、ゲノムベンチマークおよびヒト病原体検出、ゲノム配列埋め込みに焦点を当てた新しい評価において最先端の結果を達成し、パンデミック監視、生物監視、および新興の健康脅威の早期検出に向けた公衆衛生アプリケーションにおける潜在能力を示します。
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary