Многомодальный искусственный интеллект в качестве сопилота для анализа одиночных клеток с инструкциями.
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following
January 14, 2025
Авторы: Yin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen
cs.AI
Аннотация
Большие языковые модели отлично справляются с интерпретацией сложных естественноязыковых инструкций, что позволяет им выполнять широкий спектр задач. В области жизненных наук данные по одноклеточному секвенированию РНК (scRNA-seq) служат "языком клеточной биологии", запечатлевая сложные образцы экспрессии генов на уровне одной клетки. Однако взаимодействие с этим "языком" с помощью традиционных инструментов часто является неэффективным и неинтуитивным, представляя вызов для исследователей. Для преодоления этих ограничений мы представляем InstructCell, мультимодального искусственного интеллекта-помощника, который использует естественный язык в качестве средства для более прямого и гибкого анализа одноклеточных данных. Мы создаем обширный мультимодальный набор данных инструкций, который сочетает текстовые инструкции с профилями scRNA-seq из различных тканей и видов. Основываясь на этом, мы разрабатываем мультимодальную архитектуру языка клеток, способную одновременно интерпретировать и обрабатывать обе модальности. InstructCell дает исследователям возможность выполнять важные задачи, такие как аннотация типа клеток, условное псевдообразование клеток и прогнозирование чувствительности к лекарствам, с использованием простых естественноязыковых команд. Обширные оценки показывают, что InstructCell последовательно соответствует или превосходит производительность существующих моделей основных одноклеточных данных, а также адаптируется к различным экспериментальным условиям. Более важно, InstructCell предоставляет доступный и интуитивно понятный инструмент для исследования сложных одноклеточных данных, снижая технические барьеры и обеспечивая более глубокие биологические исследования.
English
Large language models excel at interpreting complex natural language
instructions, enabling them to perform a wide range of tasks. In the life
sciences, single-cell RNA sequencing (scRNA-seq) data serves as the "language
of cellular biology", capturing intricate gene expression patterns at the
single-cell level. However, interacting with this "language" through
conventional tools is often inefficient and unintuitive, posing challenges for
researchers. To address these limitations, we present InstructCell, a
multi-modal AI copilot that leverages natural language as a medium for more
direct and flexible single-cell analysis. We construct a comprehensive
multi-modal instruction dataset that pairs text-based instructions with
scRNA-seq profiles from diverse tissues and species. Building on this, we
develop a multi-modal cell language architecture capable of simultaneously
interpreting and processing both modalities. InstructCell empowers researchers
to accomplish critical tasks-such as cell type annotation, conditional
pseudo-cell generation, and drug sensitivity prediction-using straightforward
natural language commands. Extensive evaluations demonstrate that InstructCell
consistently meets or exceeds the performance of existing single-cell
foundation models, while adapting to diverse experimental conditions. More
importantly, InstructCell provides an accessible and intuitive tool for
exploring complex single-cell data, lowering technical barriers and enabling
deeper biological insights.Summary
AI-Generated Summary