技术解析 | SpaSEG：基于无监督CNN的空间转录组多任务分析框架

一、核心问题与解决思路

**挑战：** 空间转录组数据分析面临多任务（聚类、差异基因、整合、互作）分离、跨平台兼容性差、大规模数据计算效率低等痛点。
SpaSEG方案： 提出一个基于**无监督卷积神经网络（CNN）** 的统一深度学习框架，将空间转录组数据视为2D图像进行处理，实现多任务联合学习。

二、模型架构深度解析

SpaSEG模型的核心设计思想是同时利用基因表达相似性和空间位置信息。

输入数据构建：
- 将空间转录组数据矩阵（基因×Spot）根据Spot的二维空间坐标，重构成一个类图像的数据结构。
无监督CNN编码器：
- 使用CNN作为特征提取主干网络，其卷积操作能有效捕捉局部区域内的基因表达模式及其空间相关性。
- 通过引入**边缘强度约束（Edge Strength Constraint）** 等机制，确保识别出的空间域在空间上是连续和光滑的，符合生物组织的实际情况。
多任务输出头：
- **空间域识别：** 输出每个Spot所属的空间功能域标签。
- **空间可变基因检测：** 识别在不同空间域中特异性表达的基因。
- **多切片整合：** 通过学习共享的特征表示，实现不同切片间空间域的对齐与整合，支持3D重建。
- **细胞互作推断：** 基于空间邻近性和表达信息，预测细胞间的通信潜能。

三、性能基准测试

在多个标准数据集上的测试表明：

**准确性：** 在空间域识别任务上，其归一化互信息（NMI）、调整兰德指数（ARI）等指标均优于对比方法。
**效率：** 在处理超大规模数据（如52万+ Spot）时，展现出显著的速度优势，耗时仅为传统方法（如Leiden）的几分之一。
**鲁棒性：** 对来自Stereo-seq等不同平台、不同分辨率的数据均表现出良好的适应性。

四、在DCS Cloud平台的应用前景

SpaSEG 所代表的高级分析算法，对计算资源有一定要求。DCS Cloud 这类云端生物信息学平台，通过提供预配置的环境和弹性计算资源，能够帮助用户屏蔽底层基础设施的复杂性，使其更专注于生物学问题的探索。研究人员可将经平台标准流程预处理后的空间转录组数据，直接投入此类集成的高级工具中进行深入挖掘，形成从数据到洞见的完整分析闭环。

总结：

SpaSEG通过将计算机视觉领域的先进思想引入空间转录组学，为多任务协同分析提供了一个高效、统一的框架。其开源实现已集成于Stereopy 生态系统，也为在DCS Cloud等计算平台上进行大规模应用奠定了基础。