METAGENE-1: Modelo Fundacional Metagenômico para Monitoramento de Pandemias
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring
January 3, 2025
Autores: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI
Resumo
Nós pré-treinamos o METAGENE-1, um modelo autoregressivo transformer com 7 bilhões de parâmetros, que referimos como um modelo de fundação metagenômica, em um novo corpus de diversas sequências de DNA e RNA metagenômicas compreendendo mais de 1,5 trilhão de pares de bases. Este conjunto de dados é proveniente de uma grande coleção de amostras de águas residuais humanas, processadas e sequenciadas usando métodos de sequenciamento metagenômico profundo (próxima geração). Ao contrário dos modelos genômicos que se concentram em genomas individuais ou conjuntos curados de espécies específicas, o objetivo do METAGENE-1 é capturar a distribuição completa de informações genômicas presentes nessas águas residuais, para auxiliar em tarefas relevantes para monitoramento de pandemias e detecção de patógenos. Realizamos a tokenização de codificação de pares de bytes (BPE) em nosso conjunto de dados, adaptada para sequências metagenômicas, e então pré-treinamos nosso modelo. Neste artigo, detalhamos primeiro o conjunto de dados de pré-treinamento, estratégia de tokenização e arquitetura do modelo, destacando as considerações e escolhas de design que possibilitam a modelagem eficaz de dados metagenômicos. Em seguida, apresentamos os resultados do pré-treinamento deste modelo em nosso conjunto de dados metagenômicos, fornecendo detalhes sobre nossas perdas, métricas do sistema e estabilidade do treinamento ao longo do pré-treinamento. Finalmente, demonstramos o desempenho do METAGENE-1, que alcança resultados de ponta em um conjunto de benchmarks genômicos e novas avaliações focadas na detecção de patógenos humanos e incorporação de sequências genômicas, mostrando seu potencial para aplicações de saúde pública em monitoramento de pandemias, biossegurança e detecção precoce de ameaças à saúde emergentes.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer
model, which we refer to as a metagenomic foundation model, on a novel corpus
of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base
pairs. This dataset is sourced from a large collection of human wastewater
samples, processed and sequenced using deep metagenomic (next-generation)
sequencing methods. Unlike genomic models that focus on individual genomes or
curated sets of specific species, the aim of METAGENE-1 is to capture the full
distribution of genomic information present within this wastewater, to aid in
tasks relevant to pandemic monitoring and pathogen detection. We carry out
byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic
sequences, and then pretrain our model. In this paper, we first detail the
pretraining dataset, tokenization strategy, and model architecture,
highlighting the considerations and design choices that enable the effective
modeling of metagenomic data. We then show results of pretraining this model on
our metagenomic dataset, providing details about our losses, system metrics,
and training stability over the course of pretraining. Finally, we demonstrate
the performance of METAGENE-1, which achieves state-of-the-art results on a set
of genomic benchmarks and new evaluations focused on human-pathogen detection
and genomic sequence embedding, showcasing its potential for public health
applications in pandemic monitoring, biosurveillance, and early detection of
emerging health threats.Summary
AI-Generated Summary