Многомодальный искусственный интеллект в качестве сопилота для анализа одиночных клеток с инструкциями.

A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

January 14, 2025
Авторы: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI

Аннотация

Большие языковые модели отлично справляются с интерпретацией сложных естественноязыковых инструкций, что позволяет им выполнять широкий спектр задач. В области жизненных наук данные по одноклеточному секвенированию РНК (scRNA-seq) служат "языком клеточной биологии", запечатлевая сложные образцы экспрессии генов на уровне одной клетки. Однако взаимодействие с этим "языком" с помощью традиционных инструментов часто является неэффективным и неинтуитивным, представляя вызов для исследователей. Для преодоления этих ограничений мы представляем InstructCell, мультимодального искусственного интеллекта-помощника, который использует естественный язык в качестве средства для более прямого и гибкого анализа одноклеточных данных. Мы создаем обширный мультимодальный набор данных инструкций, который сочетает текстовые инструкции с профилями scRNA-seq из различных тканей и видов. Основываясь на этом, мы разрабатываем мультимодальную архитектуру языка клеток, способную одновременно интерпретировать и обрабатывать обе модальности. InstructCell дает исследователям возможность выполнять важные задачи, такие как аннотация типа клеток, условное псевдообразование клеток и прогнозирование чувствительности к лекарствам, с использованием простых естественноязыковых команд. Обширные оценки показывают, что InstructCell последовательно соответствует или превосходит производительность существующих моделей основных одноклеточных данных, а также адаптируется к различным экспериментальным условиям. Более важно, InstructCell предоставляет доступный и интуитивно понятный инструмент для исследования сложных одноклеточных данных, снижая технические барьеры и обеспечивая более глубокие биологические исследования.
English
Large language models excel at interpreting complex natural language instructions, enabling them to perform a wide range of tasks. In the life sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language of cellular biology", capturing intricate gene expression patterns at the single-cell level. However, interacting with this "language" through conventional tools is often inefficient and unintuitive, posing challenges for researchers. To address these limitations, we present InstructCell, a multi-modal AI copilot that leverages natural language as a medium for more direct and flexible single-cell analysis. We construct a comprehensive multi-modal instruction dataset that pairs text-based instructions with scRNA-seq profiles from diverse tissues and species. Building on this, we develop a multi-modal cell language architecture capable of simultaneously interpreting and processing both modalities. InstructCell empowers researchers to accomplish critical tasks-such as cell type annotation, conditional pseudo-cell generation, and drug sensitivity prediction-using straightforward natural language commands. Extensive evaluations demonstrate that InstructCell consistently meets or exceeds the performance of existing single-cell foundation models, while adapting to diverse experimental conditions. More importantly, InstructCell provides an accessible and intuitive tool for exploring complex single-cell data, lowering technical barriers and enabling deeper biological insights.

Summary

AI-Generated Summary

PDF242January 15, 2025