Ein Multi-Modaler KI-Copilot für die Einzelzellanalyse mit Anleitungsfunktion

A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

January 14, 2025
Autoren: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI

Zusammenfassung

Große Sprachmodelle zeichnen sich durch ihre Fähigkeit aus, komplexe natürlichsprachliche Anweisungen zu interpretieren, was es ihnen ermöglicht, eine Vielzahl von Aufgaben auszuführen. In den Lebenswissenschaften dient die Einzelzell-RNA-Sequenzierung (scRNA-seq) als die "Sprache der Zellbiologie", da sie komplexe Genexpressionsmuster auf Einzelzellebene erfasst. Die Interaktion mit dieser "Sprache" durch herkömmliche Werkzeuge ist jedoch oft ineffizient und unintuitiv, was Forscher vor Herausforderungen stellt. Um diese Einschränkungen zu überwinden, präsentieren wir InstructCell, einen multimodalen KI-Copiloten, der natürliche Sprache als Medium für eine direktere und flexiblere Einzelzellanalyse nutzt. Wir erstellen einen umfassenden multimodalen Anweisungsdatensatz, der textbasierte Anweisungen mit scRNA-seq-Profilen aus verschiedenen Geweben und Arten kombiniert. Aufbauend darauf entwickeln wir eine multimodale Zellspracharchitektur, die in der Lage ist, beide Modalitäten gleichzeitig zu interpretieren und zu verarbeiten. InstructCell ermöglicht es Forschern, wichtige Aufgaben wie die Zelltypenannotation, die bedingte Pseudozellenerzeugung und die Vorhersage der Arzneimittelsensitivität mithilfe einfacher natürlichsprachlicher Befehle zu erledigen. Umfangreiche Evaluationen zeigen, dass InstructCell konsistent die Leistung bestehender Einzelzell-Grundlagenmodelle erfüllt oder übertrifft und sich an verschiedene experimentelle Bedingungen anpasst. Vor allem bietet InstructCell ein zugängliches und intuitives Werkzeug zur Erkundung komplexer Einzelzellendaten, senkt technische Hürden und ermöglicht tiefere biologische Erkenntnisse.
English
Large language models excel at interpreting complex natural language instructions, enabling them to perform a wide range of tasks. In the life sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language of cellular biology", capturing intricate gene expression patterns at the single-cell level. However, interacting with this "language" through conventional tools is often inefficient and unintuitive, posing challenges for researchers. To address these limitations, we present InstructCell, a multi-modal AI copilot that leverages natural language as a medium for more direct and flexible single-cell analysis. We construct a comprehensive multi-modal instruction dataset that pairs text-based instructions with scRNA-seq profiles from diverse tissues and species. Building on this, we develop a multi-modal cell language architecture capable of simultaneously interpreting and processing both modalities. InstructCell empowers researchers to accomplish critical tasks-such as cell type annotation, conditional pseudo-cell generation, and drug sensitivity prediction-using straightforward natural language commands. Extensive evaluations demonstrate that InstructCell consistently meets or exceeds the performance of existing single-cell foundation models, while adapting to diverse experimental conditions. More importantly, InstructCell provides an accessible and intuitive tool for exploring complex single-cell data, lowering technical barriers and enabling deeper biological insights.

Summary

AI-Generated Summary

PDF242January 15, 2025