METAGENE-1: Modelo Fundacional Metagenômico para Monitoramento de Pandemias

Resumo

Nós pré-treinamos o METAGENE-1, um modelo autoregressivo transformer com 7 bilhões de parâmetros, que referimos como um modelo de fundação metagenômica, em um novo corpus de diversas sequências de DNA e RNA metagenômicas compreendendo mais de 1,5 trilhão de pares de bases. Este conjunto de dados é proveniente de uma grande coleção de amostras de águas residuais humanas, processadas e sequenciadas usando métodos de sequenciamento metagenômico profundo (próxima geração). Ao contrário dos modelos genômicos que se concentram em genomas individuais ou conjuntos curados de espécies específicas, o objetivo do METAGENE-1 é capturar a distribuição completa de informações genômicas presentes nessas águas residuais, para auxiliar em tarefas relevantes para monitoramento de pandemias e detecção de patógenos. Realizamos a tokenização de codificação de pares de bytes (BPE) em nosso conjunto de dados, adaptada para sequências metagenômicas, e então pré-treinamos nosso modelo. Neste artigo, detalhamos primeiro o conjunto de dados de pré-treinamento, estratégia de tokenização e arquitetura do modelo, destacando as considerações e escolhas de design que possibilitam a modelagem eficaz de dados metagenômicos. Em seguida, apresentamos os resultados do pré-treinamento deste modelo em nosso conjunto de dados metagenômicos, fornecendo detalhes sobre nossas perdas, métricas do sistema e estabilidade do treinamento ao longo do pré-treinamento. Finalmente, demonstramos o desempenho do METAGENE-1, que alcança resultados de ponta em um conjunto de benchmarks genômicos e novas avaliações focadas na detecção de patógenos humanos e incorporação de sequências genômicas, mostrando seu potencial para aplicações de saúde pública em monitoramento de pandemias, biossegurança e detecção precoce de ameaças à saúde emergentes.

English

We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.

METAGENE-1: Modelo Fundacional Metagenômico para Monitoramento de Pandemias

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Resumo

Support