METAGENE-1: Modello Fondamentale Metagenomic per il Monitoraggio delle Pandemie
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Autori: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Abstract
Prealleniamo METAGENE-1, un modello autoregressivo transformer con 7 miliardi di parametri, che chiamiamo modello fondamentale metagenomico, su un nuovo corpus di diverse sequenze di DNA e RNA metagenomiche che comprendono oltre 1,5 trilioni di coppie di basi. Questo dataset proviene da un'ampia raccolta di campioni di acque reflue umane, elaborati e sequenziati utilizzando metodi di sequenziamento metagenomico profondo (next-generation). A differenza dei modelli genomici che si concentrano su singoli genomi o insiemi curati di specie specifiche, l'obiettivo di METAGENE-1 è catturare l'intera distribuzione delle informazioni genomiche presenti in queste acque reflue, per aiutare in compiti relativi al monitoraggio delle pandemie e alla rilevazione dei patogeni. Applichiamo la tokenizzazione con codifica a coppie di byte (BPE) sul nostro dataset, adattata per sequenze metagenomiche, e quindi prealleniamo il nostro modello. In questo articolo, descriviamo innanzitutto il dataset di preallenamento, la strategia di tokenizzazione e l'architettura del modello, evidenziando le considerazioni e le scelte progettuali che consentono la modellazione efficace dei dati metagenomici. Successivamente mostriamo i risultati del preallenamento di questo modello sul nostro dataset metagenomico, fornendo dettagli sulle nostre perdite, le metriche di sistema e la stabilità dell'allenamento nel corso del preallenamento. Infine, dimostriamo le prestazioni di METAGENE-1, che raggiunge risultati all'avanguardia su un insieme di benchmark genomici e nuove valutazioni incentrate sulla rilevazione di patogeni umani e sull'incorporamento di sequenze genomiche, mostrando il suo potenziale per applicazioni di sanità pubblica nel monitoraggio delle pandemie, nella biosorveglianza e nella rilevazione precoce delle minacce alla salute emergenti.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary