Un copilota AI multimodale per l'analisi delle singole cellule con istruzioni successive
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
January 14, 2025
Autori: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI
Abstract
I grandi modelli linguistici eccellono nell'interpretare istruzioni complesse in linguaggio naturale, consentendo loro di svolgere una vasta gamma di compiti. Nelle scienze della vita, i dati di sequenziamento dell'RNA a singola cellula (scRNA-seq) fungono da "linguaggio della biologia cellulare", catturando intricati pattern di espressione genica a livello di singola cellula. Tuttavia, interagire con questo "linguaggio" attraverso strumenti convenzionali è spesso inefficiente e poco intuitivo, presentando sfide per i ricercatori. Per affrontare queste limitazioni, presentiamo InstructCell, un copilota AI multimodale che sfrutta il linguaggio naturale come mezzo per un'analisi più diretta e flessibile delle singole cellule. Costruiamo un ampio dataset di istruzioni multimodali che accoppia istruzioni basate su testo con profili scRNA-seq provenienti da tessuti e specie diverse. Sviluppando su questo, creiamo un'architettura di linguaggio cellulare multimodale in grado di interpretare e elaborare contemporaneamente entrambe le modalità. InstructCell permette ai ricercatori di svolgere compiti critici - come l'annotazione dei tipi cellulari, la generazione condizionale di pseudo-cellule e la previsione della sensibilità ai farmaci - utilizzando comandi di linguaggio naturale semplici. Valutazioni approfondite dimostrano che InstructCell incontra costantemente o supera le prestazioni dei modelli fondamentali a singola cellula esistenti, adattandosi a diverse condizioni sperimentali. Inoltre, InstructCell fornisce uno strumento accessibile e intuitivo per esplorare dati complessi a singola cellula, abbassando le barriere tecniche e consentendo approfondite intuizioni biologiche.
English
Large language models excel at interpreting complex natural language
instructions, enabling them to perform a wide range of tasks. In the life
sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language
of cellular biology", capturing intricate gene expression patterns at the
single-cell level. However, interacting with this "language" through
conventional tools is often inefficient and unintuitive, posing challenges for
researchers. To address these limitations, we present InstructCell, a
multi-modal AI copilot that leverages natural language as a medium for more
direct and flexible single-cell analysis. We construct a comprehensive
multi-modal instruction dataset that pairs text-based instructions with
scRNA-seq profiles from diverse tissues and species. Building on this, we
develop a multi-modal cell language architecture capable of simultaneously
interpreting and processing both modalities. InstructCell empowers researchers
to accomplish critical tasks-such as cell type annotation, conditional
pseudo-cell generation, and drug sensitivity prediction-using straightforward
natural language commands. Extensive evaluations demonstrate that InstructCell
consistently meets or exceeds the performance of existing single-cell
foundation models, while adapting to diverse experimental conditions. More
importantly, InstructCell provides an accessible and intuitive tool for
exploring complex single-cell data, lowering technical barriers and enabling
deeper biological insights.Summary
AI-Generated Summary