ChatPaper.aiChatPaper

METAGENE-1: 전염병 모니터링을 위한 메타게놈 기반 모델

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

January 3, 2025
저자: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger
cs.AI

초록

우리는 METAGENE-1이라고 하는 70억 개 파라미터의 자기회귀 트랜스포머 모델을 사전훈련합니다. 이 모델은 메타게놈 기초 모델로 지칭되며, 1.5조 개 이상의 염기쌍으로 이루어진 다양한 메타게놈 DNA 및 RNA 서열로 구성된 새로운 말뭉치에 대해 사전훈련합니다. 이 데이터셋은 심층 메타게놈(차세대) 시퀀싱 방법을 사용하여 처리 및 시퀀싱된 대규모 인간 하수 샘플에서 유래되었습니다. 개별 유전체나 특정 종의 세트에 중점을 둔 유전 모델과는 달리, METAGENE-1의 목표는 이 하수에 존재하는 유전 정보의 전체 분포를 포착하여 전염병 모니터링 및 병원체 탐지와 관련된 작업에 도움을 주는 것입니다. 우리는 메타게놈 서열에 맞게 맞춤화된 바이트 페어 인코딩(BPE) 토큰화를 수행한 후 모델을 사전훈련합니다. 본 논문에서는 먼저 사전훈련 데이터셋, 토큰화 전략 및 모델 아키텍처에 대해 상세히 설명하며, 메타게놈 데이터를 효과적으로 모델링할 수 있도록 하는 고려 사항과 설계 선택 사항을 강조합니다. 그런 다음, 이 메타게놈 데이터셋에서 이 모델을 사전훈련한 결과를 보여주며, 사전훈련 과정에서의 손실, 시스템 메트릭 및 훈련 안정성에 대한 세부 정보를 제공합니다. 마지막으로, 우리는 METAGENE-1의 성능을 증명하여, 유전체 벤치마크 세트 및 인간-병원체 탐지 및 유전 서열 임베딩에 초점을 맞춘 새로운 평가에서 최첨단 결과를 달성함으로써, 전염병 모니터링, 생물 감시 및 신촌 보건 위협의 조기 탐지에 대한 잠재력을 보여줍니다.
English
We pretrain METAGENE-1, a 7-billion-parameter autoregressive transformer model, which we refer to as a metagenomic foundation model, on a novel corpus of diverse metagenomic DNA and RNA sequences comprising over 1.5 trillion base pairs. This dataset is sourced from a large collection of human wastewater samples, processed and sequenced using deep metagenomic (next-generation) sequencing methods. Unlike genomic models that focus on individual genomes or curated sets of specific species, the aim of METAGENE-1 is to capture the full distribution of genomic information present within this wastewater, to aid in tasks relevant to pandemic monitoring and pathogen detection. We carry out byte-pair encoding (BPE) tokenization on our dataset, tailored for metagenomic sequences, and then pretrain our model. In this paper, we first detail the pretraining dataset, tokenization strategy, and model architecture, highlighting the considerations and design choices that enable the effective modeling of metagenomic data. We then show results of pretraining this model on our metagenomic dataset, providing details about our losses, system metrics, and training stability over the course of pretraining. Finally, we demonstrate the performance of METAGENE-1, which achieves state-of-the-art results on a set of genomic benchmarks and new evaluations focused on human-pathogen detection and genomic sequence embedding, showcasing its potential for public health applications in pandemic monitoring, biosurveillance, and early detection of emerging health threats.

Summary

AI-Generated Summary

PDF212January 7, 2025