Um Copiloto de IA Multimodal para Análise de Células Únicas com Instrução a Seguir
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
January 14, 2025
Autores: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI
Resumo
Grandes modelos de linguagem destacam-se na interpretação de instruções complexas em linguagem natural, permitindo-lhes realizar uma ampla gama de tarefas. Nas ciências da vida, os dados de sequenciamento de RNA de células únicas (scRNA-seq) servem como a "linguagem da biologia celular", capturando padrões intrincados de expressão gênica no nível de células individuais. No entanto, interagir com essa "linguagem" por meio de ferramentas convencionais frequentemente é ineficiente e pouco intuitivo, apresentando desafios para os pesquisadores. Para lidar com essas limitações, apresentamos o InstructCell, um copiloto de IA multimodal que utiliza linguagem natural como meio para análises de células individuais mais diretas e flexíveis. Construímos um conjunto de dados de instruções multimodais abrangente que associa instruções baseadas em texto com perfis de scRNA-seq de diversos tecidos e espécies. Com base nisso, desenvolvemos uma arquitetura de linguagem celular multimodal capaz de interpretar e processar simultaneamente ambas as modalidades. O InstructCell capacita os pesquisadores a realizar tarefas críticas - como anotação de tipo celular, geração condicional de pseudo-células e previsão de sensibilidade a drogas - usando comandos simples em linguagem natural. Avaliações extensivas demonstram que o InstructCell consistentemente atende ou supera o desempenho de modelos de base de células únicas existentes, adaptando-se a diversas condições experimentais. Mais importante ainda, o InstructCell fornece uma ferramenta acessível e intuitiva para explorar dados complexos de células individuais, reduzindo barreiras técnicas e possibilitando insights biológicos mais profundos.
English
Large language models excel at interpreting complex natural language
instructions, enabling them to perform a wide range of tasks. In the life
sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language
of cellular biology", capturing intricate gene expression patterns at the
single-cell level. However, interacting with this "language" through
conventional tools is often inefficient and unintuitive, posing challenges for
researchers. To address these limitations, we present InstructCell, a
multi-modal AI copilot that leverages natural language as a medium for more
direct and flexible single-cell analysis. We construct a comprehensive
multi-modal instruction dataset that pairs text-based instructions with
scRNA-seq profiles from diverse tissues and species. Building on this, we
develop a multi-modal cell language architecture capable of simultaneously
interpreting and processing both modalities. InstructCell empowers researchers
to accomplish critical tasks-such as cell type annotation, conditional
pseudo-cell generation, and drug sensitivity prediction-using straightforward
natural language commands. Extensive evaluations demonstrate that InstructCell
consistently meets or exceeds the performance of existing single-cell
foundation models, while adapting to diverse experimental conditions. More
importantly, InstructCell provides an accessible and intuitive tool for
exploring complex single-cell data, lowering technical barriers and enabling
deeper biological insights.Summary
AI-Generated Summary