【科研快报】Nature子刊重磅｜HESpotEx：深度学习首次实现从病理图像直接预测基因表达

一、引言：病理图像与分子特征的"最后一公里"难题

H&E染色全切片病理图像（WSI）示例，展示临床病理诊断中常规获取的组织形态学信息

全切片病理图像（Whole-slide Images, WSIs）是临床诊断中最常见、成本最低、数据最丰富的组织学检测手段。H&E染色切片能够清晰呈现组织结构、细胞形态以及肿瘤微环境的整体状态，是肿瘤分型、分级与预后评估的"金标准"。然而，病理图像本质上是形态学观察------它告诉我们"组织长什么样"，却无法直接揭示"细胞在做什么分子活动"。

基因表达谱是理解组织分子状态的关键窗口。传统RNA测序（RNA-seq）虽能精准测量基因表达水平，却只能给出整个组织的平均信号，无法保留细胞在空间上的异质性分布。近年来，10x Visium、Xenium等空间转录组技术（Spatial Transcriptomics, ST）的出现，使研究人员能够同时获取组织空间位置与基因表达数据。但问题在于------ST技术每个样本成本高达数千美元，且技术门槛高、样本处理周期长，严重制约了其大规模临床应用。

核心矛盾：临床中大量可及的H&E病理图像，无法直接转化为可用的空间分子信息。两类数据之间，横亘着一条技术鸿沟。

空间转录组技术示意图，对比传统RNA-seq（整体平均信号）与ST技术（保留空间位置信息）的差异

此前，研究人员已尝试用深度学习跨越这道鸿沟，涌现出Hist2ST、THItoGene、TCGN、IGI-DL、BLEEP和mclSTExp等一系列方法。这些模型大多基于卷积神经网络（CNN）或Transformer架构，从H&E图像 patch 中提取特征，再映射到基因表达空间。但论文作者指出，现有方法普遍存在三个核心缺陷：

问题一：模态对齐机制缺失。图像特征与基因表达特征分属两个完全不同的模态空间，直接映射缺乏明确的语义对齐约束，导致跨模态特征学习不够紧密。

问题二：小样本过拟合严重。空间转录组数据集规模极为有限（通常每个组织切片仅含数百至数千个spot），大多数模型直接在ST数据上端到端训练，缺乏足够的泛化先验。

问题三：Transformer结构并非最优。 Transformer的自注意力机制在处理长序列时表现优异，但ST数据中的spot数量相对有限，且空间位置关系复杂，Transformer并不总是最适合的结构选择。

二、HESpotEx核心架构：双流嵌入+GCN解码

HESpotEx整体框架图，包含GATE图注意力自编码器、Quilt-Net图像编码器、双流PCC对齐机制与GCN解码器模块

针对上述问题，Nature Computational Science 2026发表的论文提出了HESpotEx（A Dual-Stream Deep Learning Framework for Spot-Level Gene Expression Prediction from Histological Images），创新性地设计了一套双流深度学习框架，核心由三大模块组成：

（一）图注意力自编码器（GATE）------表达矩阵编码流

GATE承担的是"理解空间转录组数据"的任务。每个空间spot并非孤立存在，而是与其周围spot存在复杂的空间邻域关系------相邻位置的细胞通常具有相似的微环境和基因表达模式。

GATE利用图注意力机制（Graph Attention），将每个spot的基因表达向量编码为低维的spot embedding。与传统图卷积不同，注意力机制允许模型自适应地为不同邻居分配不同的权重，从而更灵活地建模空间异质性。这一步解决的是"基因表达之间如何相互关联"的问题。

（二）Quilt-Net图像编码器------病理图像特征流

Quilt-Net是预训练的病理图像基础模型（Foundation Model），在大规模H&E染色组织图像及其对应标注上进行自监督预训练，具备强大的组织形态学特征提取能力。

在HESpotEx中，H&E全切片图像首先以每个spot为中心切分为对应patch，然后由Quilt-Net编码为patch embedding。这一步解决的是"病理图像中隐藏着哪些分子线索"的问题。

（三）Pearson相关系数（PCC）损失------跨模态对齐

双流的关键在于"对齐"。论文巧妙地引入PCC损失函数，将图像embedding与基因表达embedding拉近至同一个共享低维空间。PCC衡量的是两个变量之间的线性相关性，直接优化PCC能够使图像特征与表达特征在分布上高度一致，为后续解码打下坚实基础。

（四）GCN解码器+残差融合------预测最终表达

解码阶段，模型利用图卷积网络（GCN）聚合目标spot及其邻近patch的特征，综合空间邻域信息预测基因表达。为缓解邻域噪声的干扰，论文借鉴ResNet的残差思想，将MLP输出与GCN输出相加，形成更稳健的融合表示。

此外，HESpotEx还引入了一个基于细胞核数量的后处理步骤。其生物学假设是：一个spot中包含的细胞核数量越多，该spot的总体基因表达水平通常越高。这一先验知识的引入，进一步校正了预测偏差。

三、实验设计与数据集

HESpotEx消融实验结果图，展示双流embedding、Quilt-Net编码器与GCN模块对最终性能的贡献度分析

研究团队在多个来源、不同分辨率的空间转录组数据集上对HESpotEx进行了系统评估，涵盖了癌症与非癌症场景：

HER2+ 乳腺癌空间转录组数据集：包含多个组织切片的spot级表达数据及对应H&E图像。

皮肤鳞状细胞癌（cSCC）数据集：验证模型在实体瘤中的泛化能力。

非癌性炎症皮肤病（ncISDs）数据集：包括特应性皮炎（AD）、扁平苔藓（LP）和银屑病，检验模型在非肿瘤场景的鲁棒性。

TCGA-BRCA 大规模乳腺癌数据集：超过1,000例患者病理图像及bulk RNA-seq数据，测试模型的真实临床泛化能力。

高分辨率Xenium与Visium HD数据集：验证模型在单细胞级空间分辨率上的预测一致性。

对比方法涵盖7种主流空间基因表达预测模型，包括TCGN、Hist2ST、THItoGene、BLEEP、mclSTExp、IGI-DL等，全面检验HESpotEx的性能边界。

四、核心实验结果

4.1 癌症数据集：全面超越现有方法

HESpotEx与其他主流模型在HER2+乳腺癌和cSCC数据集上的PCC性能对比柱状图，HESpotEx在所有切片中均排名第一

在HER2+乳腺癌和cSCC两个核心数据集上，HESpotEx在几乎所有组织切片中均取得了最高的Pearson相关系数（PCC），同时拥有最低的KL散度和MSE。具体来看：

HER2+数据集： HESpotEx不仅整体PCC领先，在低表达基因预测方面同样优势明显------这类基因的表达量低、信噪比差，是多数模型的短板所在，而HESpotEx能更准确重建其真实空间分布。

外部验证集（乳腺癌）：当预测3,964个共享基因时，HESpotEx的平均PCC达到0.24，比排名第二的IGI-DL高出约140%。针对33个乳腺癌核心驱动基因，PCC进一步提升至0.289。

细胞类型空间映射：研究人员利用Celloc工具将HESpotEx预测结果与单细胞RNA-seq参考数据关联，发现模型预测的基因表达模式能够有效恢复不同细胞类型与恶性状态的空间分布，为病理学家提供了可解释的分子依据。

4.2 消融实验：找到性能提升的关键来源

为揭示性能提升的真实来源，论文设计了完整的消融实验：

双流embedding结构的贡献：相比仅使用图像编码器的单流baseline，加入spot embedding对齐后，模型预测能力显著增强。这证实了"图像特征与基因表达特征跨模态对齐"这一设计思路的核心价值。

Quilt-Net编码器的优势：在图像编码器对比中，Quilt-Net明显优于UNI、CONCH、Phikon、CTransPath等其他主流预训练病理模型。研究者认为，这源于Quilt-Net的大规模图文对比预训练范式，使其能够更精准地捕捉与组织结构相关的语义特征。

细胞核数量后处理的有效性：加入细胞核密度先验后，预测精度进一步提升，验证了领域知识的嵌入对模型性能的增益作用。

批次效应的稳健性：有趣的是，额外引入ComBat或Harmony等批次效应校正方法，并未带来显著性能提升。这说明HESpotEx本身的模型结构已具备较强的鲁棒性，不需要额外的批次归一化干预。

4.3 非癌症炎症疾病：拓展应用边界

HESpotEx在非癌性炎症皮肤病（AD/LP/银屑病）中的空间基因表达预测可视化，OVOL1、IL16、OAS1等疾病特征基因的空间分布与真实病理区域高度吻合

大多数现有空间基因表达预测方法仅关注癌症数据，对非肿瘤病理场景的适用性未经充分验证。HESpotEx将研究边界拓展至三种非癌性炎症皮肤病：

特应性皮炎（AD）： HESpotEx成功预测OVOL1基因在病变区域的高表达分布。

扁平苔藓（LP）：模型准确重建了IL16基因的局部聚集模式。

银屑病： OAS1表达区域的预测结果与真实病理区域高度吻合。

相比之下，部分竞争方法在这些非癌症数据集上甚至出现负相关预测，性能极不稳定。HESpotEx的稳健表现，证明了其底层方法对多种组织类型和病理状态的普适性。

4.4 TCGA大规模验证：临床级泛化能力

最终，研究团队在TCGA-BRCA数据集（1,042例乳腺癌患者）上验证了HESpotEx的临床级泛化能力。在1,889个共享基因上，HESpotEx的平均PCC达到0.498，而第二名方法的PCC仅为0.088------差距接近6倍。

更值得关注的是预后分析。将HESpotEx预测的表达谱输入Cox比例风险模型后，模型能够有效区分高风险与低风险患者，在HER2+亚型中同样保持显著优势。这表明HESpotEx生成的"虚拟空间转录组"不仅数值准确，还保留了足够的生物学信息用于下游临床分析。

五、方法优势与局限性分析

5.1 核心创新点总结

综合上述实验结果，HESpotEx的方法论创新可以归结为以下几个层面：

创新维度	具体贡献
跨模态对齐	PCC损失驱动双流embedding在共享空间对齐，解决了图像-表达特征语义割裂的核心问题
预训练病理基础模型	引入Quilt-Net，突破ST小样本训练困境，提供丰富的组织形态学先验知识
空间图结构建模	GATE+GAT+GAL组合，精准建模spot之间的空间邻域关系
领域知识嵌入	细胞核密度后处理将生物学先验转化为可计算的数值约束
泛化鲁棒性	在癌症、非癌症、大规模TCGA、高分辨率Xenium等多种场景中均保持领先

5.2 现存局限与未来方向

论文客观讨论了当前版本的几点局限：

分辨率限制： HESpotEx目前基于spot-level预测，尚未达到真正的单细胞分辨率。最新Xenium等高分辨率平台产生的单细胞级数据，需要模型进一步升级。

预测基因数量上界：当前版本最多预测5,457个基因，对于需要全转录组分析的场景仍有提升空间。

组织类型覆盖：现有训练数据以乳腺癌和皮肤癌为主，对其他肿瘤类型的泛化能力有待进一步验证。

动态时间序列：模型目前处理的是静态组织切片，对于纵向采样或治疗响应监测场景尚无针对性设计。

未来方向可能包括：引入更高分辨率的图像patch、超大规模预训练ST数据、与其他组学（蛋白组、代谢组）的多模态融合，以及针对特定癌种的微调优化方案。

六、临床与科研价值：重新定义病理数据的可用性

HESpotEx的发表，其意义远超技术本身------它指向了一个深刻的方向转变：如何盘活临床中已积累的海量H&E病理图像资产，将其从"形态学诊断工具"升级为"分子水平探测工具"。

临床层面：空间转录组检测的高成本，决定了其短期内难以在常规诊疗中普及。HESpotEx通过深度学习"虚拟生成"空间转录组，让每位患者的H&E切片都具备获得分子层面洞见的能力。这对于肿瘤早筛、分子分型、治疗方案制定和预后评估，都具有直接的临床参考价值。

科研层面：对于回顾性研究，HESpotEx使得利用历史H&E样本构建空间基因表达图谱成为可能------这将极大丰富生物标志物发现的样本来源，降低空间组学研究的门槛。

药物研发层面：肿瘤微环境的分子表征是免疫治疗响应的关键预测因子。HESpotEx能够从常规病理切片中提取空间分子特征，有望加速免疫治疗biomarker的发现与验证流程。

七、技术细节补充

7.1 核心模块参数规模

HESpotEx各模块的参数量与计算开销相对合理，适合在消费级GPU上进行训练与推理。GATE模块基于标准图注意力网络，spot embedding维度为d=512；Quilt-Net图像编码器输出维度与GATE对齐；GCN解码器采用两层图卷积结构，总参数量约为数百万量级。

7.2 数据预处理流程

图像patch提取：以每个spot为中心，按空间坐标从WSI中裁剪对应patch（通常覆盖spot周围200-500μm范围）。

表达矩阵标准化：采用log1p变换处理raw count，并基于cell count进行归一化，消除细胞密度偏倚。

批次校正：在跨数据集评估时，模型对训练集与测试集的批次差异展现出良好鲁棒性，无需额外显式校正。

7.3 评估指标说明

论文主要采用三项指标评估预测质量：

Pearson相关系数（PCC）：衡量预测值与真实值之间的线性相关性，取值范围 $-1, 1$ ，越接近1表示相关性越高。

KL散度（KLD）：衡量两个概率分布之间的差异，越小表示预测分布越接近真实分布。

均方误差（MSE）：衡量预测值与真实值之间的数值偏差，越小表示预测越精确。

八、结语：空间组学民主化的新起点

HESpotEx的提出，是计算病理学与空间基因组学交叉融合的标志性成果。它不仅在benchmark上大幅刷新了性能纪录，更重要的是，它验证了一条可行路径------通过预训练基础模型+跨模态对齐+图结构建模，深度学习可以从"看得见"的病理图像中，精准还原"看不见"的分子活动。

这一技术路线的成熟，将重新定义病理数据的价值层级：从"形态诊断"到"分子探测"，从"单模态观察"到"多模态融合"，从"高成本精英检测"到"低成本普及应用"。

随着数字病理的全面普及和AI基础模型的持续进化，我们有理由相信，HESpotEx所代表的技术范式，将在未来几年内深刻改变基础医学研究与临床诊断的格局。