单细胞注释前沿：CASSIA——无参考、可解释、自动化细胞注释的大语言模型

细胞类型注释是单细胞RNA-seq分析的重要步骤，目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合，而且经常产生不一致的结果，难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性，但现有方法存在过度自信、幻觉和缺乏推理等问题。

2025年4月18日，威斯康辛大学研究团队在bioRxiv上发表了题为《CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data》的研究论文，该论文提出了一个scRNA-seq细胞注释模型------CASSIA。CASSIA可对单细胞RNA测序数据进行自动、准确和可解释的细胞注释。 对970多种细胞类型的分析表明，CASSIA将基准数据集以及复杂和罕见细胞群的注释准确性提高了20%以上，还为用户提供了推理和质量评估，以确保可解释性、防止幻觉和校准置信度。

一、问题背景

单细胞注释的挑战：单细胞RNA测序（scRNA-seq）分析中，细胞类型注释是关键步骤，但现有方法（基于参考/无参考）需专业知识和人工干预，且结果不一致、难解释。

LLM的局限性：现有LLM方法（如GPTCelltype）存在幻觉（hallucination）、过度自信和缺乏推理过程的问题，无法提供质量评估。

二、解决方法

为了解决上述问题，作者提出了CASSIA框架，该框架包括多智能体LLM系统和可选智能体两大模块。

1. 多智能体LLM系统：5个核心智能体协同工作

注释智能体（Annotator）：基于标记基因逐步推理细胞类型
验证智能体（Validator）：迭代检查标记-细胞类型一致性（≤3轮）
格式化智能体（Formatter）：提取结构化结果
评分智能体（Scorer）：生成质量分数（0-100%）
报告智能体（Reporter）：输出可解释的HTML报告

2. 可选智能体

RAG智能体：整合外部知识库（如CellMarker、本体论）提升复杂组织注释
注释增强智能体（Annotation Boost）：优化低质量分数（<75%）的注释
子聚类智能体（Subclustering）：识别混合细胞群

三、关键设计与技术亮点

1. 扛幻觉机制

推理链提示（Chain-of-Thought）：强制模型模拟专业生物信息学家分析流程
角色扮演提示："您是单细胞RNA测序专家，若分析出色将获1万美元奖励"
三重验证循环：注释与验证智能体迭代交互，确保逻辑一致性

2. 质量评估体系

质量分数（Quality Score）：基于科学准确性和标记平衡性
共识相似性分数（CS Score）：通过多次运行计算一致性，有效识别错误注释

3. 性能优化

标记基因数量：50个标记基因实现精度与效率最优平衡
并行计算：Python concurrent_futures 模块加速，8核CPU处理20个细胞群仅需2分钟
跨模型兼容性：支持GPT-4o（默认）、Claude 3.5（高精度）、LLaMA3.2（低成本）

四、研究结果

1. 使用基准数据集评估注释结果准确性

使用包含金标准注释的8个数据集评估CASSIA和其余6个注释方法的准确性，根据注释与参考注释的分类距离将注释结果分为完全正确、部分正确或不正确。结果显示，在基准数据集上，与现有方法相比，CASSIA将完全正确的注释提高了12-41%，与次优方法相比，综合正确注释（完全正确或部分正确）提高了9-29%。所有注释的平均性能表明，CASSIA在大多数数据集上的注释准确率提高了20%以上。

2. 使用复杂数据集评估注释准确性

使用来自癌症生物学、免疫学和非模式生物的数据集，系统性评估CASSIA在更专业的生物环境中的性能，发现CASSIA在各类注释复杂的生物数据集中显著优于竞争对手的方法。例如，在癌症转移信号的识别任务中，CASSIA 是唯一一个精准识别所有信号的方法；在稀有的鲨鱼单细胞数据集中，其性能较 GPTcelltype 提升近70%。

3. CASSIA通过结构化分析报告提高结果可解释性

除了准确性和稳健性，CASSIA还通过结构化分析报告提供可解释的结果，这些报告记录了CASSIA从功能标记评估到细胞类型标记鉴定和数据库验证的推理过程。图3显示CASSIA分析了一个结直肠癌群，将其识别为具有主要结直肠癌表型的肠上皮细胞。每个注释都包括验证步骤，包括标记物一致性检查和通路验证，以及置信度评分。这一透明的过程使研究人员能够了解注释的依据并评估其可靠性。

4. CASSIA提供强大的特定于注释的质量分数

LLM模型虽然准确，但经常会产生幻觉，为了规避这一问题，CASSIA为注释结果报告质量分数，从而允许用户根据质量分数报告区分幻觉/低质量注释和高质量注释。

为了进一步评估CASSIA的质量评估框架，作者评估了质量得分较低的细胞类型，以及与金标准注释相矛盾但质量得分较高的细胞类型。结果显示，CASSIA的质量评估框架可识别金标准注释错误，加入的RAG智能体可增强具有挑战性的细胞类型的注释性能。

五、工具可用性

开源地址：https://github.com/ElliotXie/CASSIA22
部署形式
- R包
- Python包
- Web：https://www.cassiacell.com
许可证：MIT
成本：默认GPT-4o模型约$0.02/次注释