放射病理学和蛋白质组学的多模式融合识别具有预后和治疗机会的综合胶质瘤亚型

论文总结

一、研究目的

建立多模态融合分型(MOFS)体系,完善 IDH 野生型胶质瘤分层,实现预后预判与个体化靶向、免疫治疗指导。

二、研究数据与队列

  1. 总入组 1194 例患者,分 3 个队列:122 例全模态(影像 + 病理 + 多组学)、80 例转录 / 蛋白组、992 例仅 MRI。
  2. 整合核磁影像组、病理切片组学、WES 基因组、转录组、蛋白质组五类数据。

三、核心分型结果(3 类 MOFS 亚型)

  1. MOFS1(神经前体型):预后最优,神经发育通路富集、神经元浸润多;核磁强化微弱、病理异型性低,替莫唑胺化疗获益明显,DNAH3 突变高发。
  2. MOFS2(增殖型) :预后最差,细胞增殖 / 周期通路亢进、染色体高度不稳定;肿块样强化、病理异型性显著;替莫唑胺耐药,STRAP 扩增 / 高表达为专属标志物与潜在治疗靶点
  3. MOFS3(高肿瘤微环境型):预后中等,富含免疫 / 基质细胞;环形强化伴中心坏死,抗 PD-1 免疫治疗敏感;可依据基质丰度再细分:低基质预后近 MOFS1、高基质预后近 MOFS2,S100A4 是基质分型标志物。

四、模型构建与临床转化

  1. 采用 11 种算法完成中间融合 + 结果晚融合确定分型,多中心公共数据集验证分型预后可靠性优于传统转录组分型。
  2. 基于 MRI 影像构建 DNN 深度学习分类器,无创预测 MOFS 亚型,多队列验证模型精准度高,配套预测网页工具。

五、创新与局限

创新

突破单一组学局限,多模态融合实现影像 - 病理 - 分子联动分型,指明各亚型专属用药方案与靶点。

不足

公共数据集缺少多组学仅能用转录组建模;影像分型忽略肿瘤空间异质性;缺失 MGMT 甲基化数据影响生存校正。

摘要

整合多模态数据可以揭示隐藏在单模态分析中的因果特征,提供对疾病复杂性的全面理解。本研究综合了122例IDH-野生型成人胶质瘤患者的放射学、病理学、基因组、转录和蛋白质组学资料,建立了多模式融合亚型(MOFS)框架,确定了三种亚型:MOFS1(原神经型)预后良好,神经发育活跃,大量神经细胞浸润;MOFS2(增殖型),预后最差,增殖活性好,基因组不稳定;MOFS3(TME丰富),预后中等,免疫和基质成分丰富,对抗PD-1免疫治疗敏感。与MOFS2的增殖表型相关,STRAP可作为MOFS2预后的生物标志物和潜在的治疗靶点。间质浸润在MOFS3中是一个重要的预后指标,允许进一步的预后分层。此外,我们开发了基于放射学特征的深度神经网络(DNN)分类器,以进一步增强临床可译性,为预测MOFS亚型提供了一种非侵入性工具。总体而言,这些发现强调了多模式融合在改善IDH-野生型胶质瘤的分类、预后准确性和精确治疗方面的潜力,为个性化治疗提供了一条途径。

引言

成人弥漫性胶质瘤是最常见的原发恶性中枢神经系统肿瘤。异柠檬酸脱氢酶(IDH)突变被发现是最有效的分子标志物,可以将弥漫性胶质瘤患者分为两组,两组患者的预后、遗传特征和潜在的治疗方案不同。最近发布了世界卫生组织(WHO)对中枢神经系统肿瘤的分类,将IDH突变型胶质瘤和IDH野生型胶质瘤归类为成人患者中不同的肿瘤实体。值得注意的是,IDH-野生型胶质母细胞瘤(GBM)是成人中最常见和最具侵袭性的胶质瘤亚型,5年生存率不到10%5。GBM的标准治疗包括大体全切除、放射治疗和替莫唑胺(TMZ)化疗6。然而,GBM具有显著的瘤间和瘤内异质性,在基因组、转录组、蛋白质组和表观基因组水平上存在显著差异,对同质管理提出了相当大的挑战7。因此,进一步研究IDH-野生型GBM的异质性和层次性势在必行。在过去的十年里,几项研究已经应用大规模、高通量测序来调查基底膜的异质性,确定关键的致癌事件和潜在的治疗靶点,并为患者分层建立分子亚型。2010年癌症基因组图谱(TCGA)的研究将基底膜分为四种转录亚型:原神经型、神经型、间叶型和经典型亚型13。随后的研究强调了肿瘤微环境(TME)对GBM亚型的深刻影响。为了解决这个问题,Wang等人12改进了分类系统,保留了原神经亚型、间充质亚型和经典亚型,同时排除了由于受到正常细胞成分污染而产生的神经亚型。最近的研究提出了进一步的见解。Wu等人16介绍了一种基于药物反应和癌细胞株中RNA表达的分类,定义了原神经、氧化磷酸化和间充质亚型。White等人提出了基于TME的亚型-TMElow、TMEMedium和TMEHigh与预后相关。此外,单细胞测序(scRNA-seq)揭示了基底膜中的多种转录状态,反映了不同的生物学过程,如缺氧和细胞周期调节18。Neftel等人19证明,这些转录状态会聚为四个肿瘤细胞亚群,突显了转录的复杂性。然而,基于转录组的亚型预测患者生存和治疗反应的能力仍然有限。随着技术的进步,多模式数据的集成为肿瘤分层带来了洞察力10。一般来说,放射学、病理学、DNA、RNA和蛋白质可以分别反映疾病的解剖、细胞、遗传、转录和功能水平。多模式分析的整合使我们能够更好地理解复杂疾病表型和生物机制之间的联系。的确,基因突变、异常信号和异常表达引起的细胞水平的微观表型对关键的细胞过程有深远的影响,如细胞增殖、炎症反应和血管生成20。这些变化可以通过组织学图像捕捉到。同样,宏观表型,如肿瘤形状、质地、水肿和坏死,可以使用先进的成像技术,如多参数磁共振成像进行可视化。以前的研究也表明,放射或组织病理学图像可以反映基因21-23的突变状态或表达水平。这不仅为放射组织病理学图像和分子组学之间提供了一座桥梁,而且也为多模式融合分析提供了理论基础。在这里,结合来自MRI衍生放射组学、全片影像(WSI)衍生病理组学、全外显子测序(WES)、RNA测序(RNA-SEQ)和基于质谱学(MS)的蛋白质组学的多模式数据,我们识别和验证了IDH-野生型成人胶质瘤的三种不同的亚型。MOFSR软件包是为多通道数据融合和分析(https://github.com/ZaoquLiu/MOFS).)而设计的我们的多模式分析提供了对基底膜肿瘤间在表型表现、致癌信号、免疫反应和基因组改变方面的异质性的洞察。此外,这项工作强调了IDH-野生型GBM患者潜在有效的预测和治疗策略。

结果

IDH-野生型成人胶质瘤多模式融合亚型的鉴定

根据2021年WHO对中枢神经系统肿瘤的分类(图S1a),本研究纳入1194例成人IDH野生型胶质瘤患者,其术前多参数磁共振成像(T1WI、CE-T1WI、T2WI、FLAIR和ADC)进行图像分割和特征提取。其中202例进行了RNA测序,180例进行了蛋白质组质谱分析,122例进行了全外显子测序。122例患者的组织学全切片图像(WSIS)具有相应的放射学和测序数据,通过扫描的苏木精-伊红(HE)染色的病理切片生成(图3)。S1B)。我们将1194名患者分为三组:122名患者使用全多模式数据(FAHZZU1),80名患者使用RNA-SEQ和部分蛋白质组数据(FAHZZU2),992名患者仅使用MRI数据(FAHZZU3)(图2)。S1B)。所有多模式和临床病理数据的详细信息请参阅补充数据1。整合多模式数据揭示了在单模式分析中可能被掩盖的因果特征,从而提供对疾病的整体理解。根据融合时间的不同,多通道数据融合可分为早期融合、中期融合和晚期融合。中间融合一般比早期融合和晚期融合更先进,但它对融合算法7、24的要求更高。在本研究中,我们介绍了一个多模式融合亚型(MOFS)框架(图1A)。简单地说,我们通过集成基于不同原则的11个算法(补充数据2)来执行多模式数据的中间融合(FAHZZU1队列),然后对11个算法获得的结果进行后期融合以产生最终的聚类结果。首先,对不同的模式变量组合计算了聚类预测指数(CPI)25和缺口统计26,并在K=3时获得了最佳聚类数(图1频带补充数据3)。模糊聚类(PAC)27和Calinski Harabasz指数(CHI)28的比例为这一决定提供了额外的支持,这表明有三个亚型的分类更稳健(图4)。S2a、B)。使用11种不同原理的不同中间融合算法29,我们接下来对122例IDH-Wild型胶质瘤患者进行了多模式融合聚类,所有模式都可用。为了进一步产生一致的聚类结果,在样本之间的Jaccard Distancemrix矩阵上进行了后期融合24,发现了三种MOFS亚型(图1C和图1C)。S2C)。主成分分析(PCA)表明,在二维空间坐标中,三个亚型之间存在明显的分离(图1D)。利用Silhouette统计数据来识别最能代表三个亚型之一的样本,产生了116例用于MOFS识别的核心集合(图2)。S2D)

MOFS亚型的放射病理和生物学特性

放射学和病理检查揭示了通过多模式融合分析确定的三种MOF亚型的明显特征。首先,MOFS1胶质瘤的特点是在CE-T1WI上没有明显或有限的增强,细胞形态相对规则,异型性较弱,细胞密度均匀(图2A和S2E),表明放射病理表型相对不那么侵袭性。在34例已确诊的MOFS1胶质瘤中,23例为组织学上的GBM,6例为分子GBM,5例为IDH野生型弥漫性胶质瘤。其次,MOFS2脑胶质瘤在CE-T1WIMRI上表现为肿块样强化,提示其侵袭性更强。MOFS2的病理表现是具有不同细胞大小和形状的异质性细胞结构,明显的非典型性,以及高度的细胞异质性(图2A和S2E)。在33例已确诊的MOFS2胶质瘤中,30例为组织学胶质瘤,2例为分子胶质瘤,1例为IDH-野生型弥漫性胶质瘤。第三,MOFS3脑胶质瘤在CE-T1WI上表现为环状强化,并伴有明显的中央坏死。病理上,这些肿瘤表现为细胞异型性和局灶性免疫浸润性(图2A和S2E)。49例已确诊的MOFS3胶质瘤均为组织学上的GBM。为了进一步研究MOF亚型之间的生物学特性,对转录和蛋白质组数据进行了功能浓缩分析(ORA)、基因集浓缩分析(GSEA)和单样本基因集测试(SSGST)(补充数据4)。MOFS1富含与神经发育相关的途径,包括远端轴突、GABA受体结合、长期突触抑制和神经元-神经元突触(图2B、C和S3-4)。MOFS2在与增殖相关的途径中显著丰富,如G1/S特异性转录、G2/M检查点、E2F靶点和细胞周期(图2B、C和S3-4)。MOFS3主要与TME相关的通路有关,包括细胞-细胞外基质相互作用,通过核因子-kB传递的肿瘤坏死因子-α信号,免疫细胞激活和干扰素反应(图2B,C和S3-4)。值得注意的是,大约三分之一的MOFS3样本显示出高细胞周期活性(图4)。S3-4和S5A,B),提示MOFS3亚型内存在异质性。进一步的分析发现,在这个亚组中,细胞周期活动和间质评分之间没有显著的相关性(图3)。S5C)。功能富集分析表明,MOFS3内的高增殖样本仍然富含TME相关途径,突出了MOFS3富含TME的身份,而不是增殖驱动的表型(图3)。S5D)。Jaccard相似性分析进一步支持了这一结论,表明MOFS3内高和低增殖亚组之间高度一致(图3)。S5E)。虽然在所有样本中,高细胞周期活性与较差的预后相关(P=0.042),但在MOFS3亚型中没有显示预后意义(P=0.63)(图8)。S5F)。这些发现强调了MOFS3作为一种独特的富含TME的亚型的稳定性,尽管它具有内部异质性。基于这些发现,MOFS1被命名为神经性亚型,因为它丰富了神经发育途径,具有较低的侵袭性。MOFS2被定义为增殖性亚型,因为它在与增殖相关的途径中显著丰富,并具有高度的细胞异质性。MOFS3被归类为富含TME的亚型,反映了其与丰富的TME组分的相关性。

对MOFS亚型的评估和验证

为了进一步评估MOFS框架的稳健性,我们进行了单通道聚类,并评估了将单个通道排除在多通道整合之外的影响。单模式聚类与多器官功能衰竭亚型的一致性有限,未能实现显著的预后分离(图3A和S6A)。相比之下,从多模式框架中排除个体模式与MOF亚型保持了相对较高的一致性,并保留了统计上显著的预后能力(图3A和S6B)。值得注意的是,Kaplan-Meier生存分析表明,就预后区分而言,完整的MOFS框架优于单通道聚类和部分多通道聚类(图3B)。这些发现强调了集成多个数据层以实现更健壮和更准确的分类系统的重要性。接下来,我们将MOF分类与传统的基于转录组的分类12、13、16、17进行了比较。为了验证MOF亚型在公共队列中的预后表现和生物学功能,我们开发了一个基于转录组表达谱的综合分类框架。鉴于公共数据集中缺乏多模式数据,主要由高质量的转录组数据组成,这种方法不可避免地牺牲了一些信息。为了减少过度拟合并从可用的转录组数据中提取尽可能多的信息,我们构建并验证了一个集成分类器(图2。S7)。我们的结果表明,MOFS亚型与以前的分类系统显示出中等的相关性(图3C)。这种差异突出了我们的MOFS亚型有可能提供对GBM异质性的洞察。Kaplan Meier生存分析表明,三种MOF亚型在8个队列中的生存差异显著(P<0.05),MOFS1预后最好,MOFS2预后最差(图3D)。MOFS亚型在7个外部队列中的生存趋势的一致性和重要性强调了这一分类的稳健性。相比之下,传统的分类在预测预后方面只显示出有限的性能(图3)。S8-9)。考虑到诸如年龄、性别、MGMT启动子甲基化状态和治疗策略等临床变量显著影响生存结果,我们进行了多变量COX回归分析来解释这些因素。即使在调整了这些变量后,MOFS1始终与较好的总体生存率相关,MOFS2仍然预示着较差的预后,而MOFS3与生存率没有显著关联(补充数据5A)。此外,服用TMZ的MOFS1和MOFS3患者的生存率显著提高(HR<1,P<0.05),而接受TMZ治疗的MOFS2患者与未治疗的患者相比,没有观察到生存益处(P=0.179)(补充数据5B)。这一发现表明MOFS2患者对TMZ表现出抵抗,这可能是他们总体预后较差的部分原因。由于TMZ是治疗GBM的标准化疗药物,缺乏Beneffiin MOFS2进一步强调了在这一亚型中寻找替代治疗策略的必要性。这些发现进一步验证了MOFS分类系统的稳健性和预测价值。此外,在这七个外部队列中的功能丰富分析证实了与每个MOF亚型相关的生物学特性的稳定性和重复性(图3)。S10)。

MOFS亚型的基因组改变特征

为了确定单个MOFS亚型特有的遗传特征,我们对基因组图谱进行了描述。分析表明,单核苷酸变异(SNV)没有显著差异(图3)。S11A),插入/删除(Indels)(图S11B)和肿瘤突变负荷(TMB)(图4A)。TP53、LRP2和MCM10基因突变与不良预后相关(P<0.05)(图4B和补充数据6)。值得注意的是,SCN5、USH2A、PLEC和DNAH3在三个亚型之间表现出显著的突变差异(P<0.05)(图4C和S11C)。MOFS2在SCN5、USH2A和Plec中显示出高频率的突变,而DNAH3突变在MOFS1中更常见(图4C和补充数据6)。进一步分析10条典型通路的突变图谱表明,RTK-RAS通路的突变频率更高,其中TP53通路的突变在MOFS2(图2)中尤为明显。S11D)。此外,MOFS2显示出显著的拷贝数变异(CNV),表现出严重的CNV广泛和局部负担(图4D,E)。这表明MOFS2的特征是染色体不稳定(CIN)表型,这是人类恶性肿瘤的一个特征,与不良预后、肿瘤转移和耐药性有关。MOFS2特异的功能CNV基因与增殖相关途径显著相关(图2B),表明基因组不稳定与MOFS2的增殖性质之间存在潜在联系。

MOFS2的STRAP扩增及其预后意义

为了进一步探讨CNV与MOF亚型基因表达的关系,共鉴定了1023个亚型特异性CNV基因(补充数据7)。COX分析显示,STRAP、SCFD2、FIP1L1和EXOC1是MOFS2的危险因素,而KIF21A是保护因素(P<0.05)。S12)。值得注意的是,条带扩增仅在MOFS2(P<0.0001)中观察到(图2)。S12),与其他亚型(P<0.0001)相比,STRAP的表达水平显著高于其他亚型(图4F)。这一发现被胶质瘤组织的免疫组织化学(IHC)结果进一步证实(图4G)。ROC分析表明,STRAP能准确预测MOFS2亚型(AUC=0.802)(图4H)。此外,肩带主要与MOFS2的预后不良有关,而在其他亚型中没有观察到显著的相关性(图。S12)。Kaplan-Meier分析进一步表明CNV高表达或STRAP表达与预后不良相关(P<0.05)(图4I)。组织芯片免疫组化结果证实,高蛋白水平与预后呈负相关(P=0.00015)(图4J和补充数据8)。对与STRAP呈正相关的前500个基因的功能分析表明,与增殖相关的途径显著丰富(补充数据9)。以上结果表明,STAP在MOFS2中特异性地过表达和扩增,提示其在促进MOFS2的增殖表型中具有潜在的作用。

MOFS3肿瘤具有丰富的免疫侵袭和敏感的免疫治疗效果

与其他亚型(P<0.0001)相比,MOFS3型肿瘤的特征是肿瘤纯度较低,但免疫和间质成分明显较高(图5A-C)。我们的分析表明,MOFS3中免疫细胞和免疫调节剂更加丰富,加强了其富含TME的特征(图5D)。被确认为神经元亚型的MOFS1表现出较高的神经元、星形胶质细胞和少突胶质细胞的渗透水平(P<0.0001)(图5E-G)。为了系统地评估这三种亚型的免疫治疗潜力,我们构建了癌症免疫循环(CIC)31的免疫图,强调了肿瘤内免疫的动态和多方面性质(图5H)。尽管三种亚型之间具有相似的肿瘤抗原性,可能是由于相似的肿瘤突变负荷(TMB)(图4A),但MOFS3脱颖而出,其他免疫途径的激活程度更高(图5H)。这表明,考虑到MOFS3肿瘤丰富的免疫环境,免疫疗法可能会带来更大的好处。为了进一步证实这一点,我们分析了接受抗PD1免疫治疗的GBM患者的转录组表达谱32。我们的发现表明,应答者表现出MOFS3活性较高,而无应答者与MOFS2活性更相关(图5I,J)。值得注意的是,大多数免疫治疗应答者被归类为MOFS3,而只有25%的MOFS2(P=0.09)(图5K)。这一差异突显了不同MOFS亚型对免疫治疗的不同反应,并强调MOFS3特别容易受到免疫检查点的阻断。

基质改善了MOFS3的预后分层

MOFS3肿瘤不仅在各种免疫途径上表现出明显的丰富,而且基质成分也有较高的丰度(P<0.0001)(图5C)。此外,MOFS3的内皮细胞和周细胞也明显多于MOFS1和MOFS2(图2)。S13A)。这些发现表明,MOFS3肿瘤中含有较高比例的非恶性细胞成分。进一步的生存分析显示在MOFS3中基质丰度和预后之间有很强的相关性(P<0.01),这种关系在其他亚型中没有观察到(图3)。S13B)。先前的研究结果表明,MOFS3在我们的队列中没有显著的预后价值(P=0.57)(图1)。S13C)。耐人寻味的是,在将基质纳入MOF分类后,MOFS3中不同丰度的基质具有显著的预后意义(P<0.05)(图5L)。更具体地说,低间质含量的MOFS3肿瘤的中位生存率与MOFS1相似(P=0.832),而高间质含量的肿瘤在预后方面与MOFS2相似(P=0.974,图5L)。为了评估基质生物标志物的预测能力,进行了ROC分析。典型的基质标记S100A4在mRNA和蛋白质水平上都显示出相对准确的预测能力(RNA:AUC=0.72;蛋白质:AUC=0.83)(图5M)。IHC分析还表明,MOFS3肿瘤的特征是S100A4的表达水平较高(图5N)。此外,随后对组织芯片结果的生存分析证实了高水平的间质含量与较差的预后之间的关联(P=0.042)(图3)。S13D和补充数据8)。这些发现强调了间质成分在改善MOFS3亚型预后分层中的重要性。

无创预测多器官功能衰竭的MRI分类器的研制

为了增强我们的MOFS分类系统的临床适用性,我们利用易于获取的非侵入性放射成像来预测MOFS亚型。我们最初过滤了来自MRI扫描的22个定量成像特征,以构建通过弹性反向传播优化的深度神经网络(DNN)模型(图6A和补充数据10)。超参数调整导致了包含两个隐含层的深度神经网络(DNN)模型的发展。DNN使用FAHZZU1数据集进行训练,其中70%的样本分配给训练集,30%的样本分配给测试集。使用FAHZZU2和FAHZZU3数据集进行了额外的测试。在FAHZZU1训练集上,对于每个MOF亚型,该模型的曲线下面积(AUC)都达到了1。在FAHZZU1测试集上,MOFS1、MOFS2和MOFS3的AUC分别为0.9%、0.968和0.889。对于FAHZZU2数据集,其中MOF标签是使用基于RNAs的集成分类器预测的,该模型获得了MOFS1、MOFS2和MOFS3的AUC值分别为0.862、0.958和0.898(图。S14A)。这一队列的AUC值略有下降可能源于标签精度的差异,因为基于RNA序列的预测缺乏原始多模式聚类法提供的全面生物学背景。这些变化突显了通道对亚型分配准确性的潜在影响。混淆矩阵进一步证实了模型的稳健性能,在FAHZZU1训练集、测试集和FAHZZU2验证集中分别显示了1、0.917和0.825的精度(图6B)。由于FAHZZU3队列中缺乏分子多组学数据,因此无法获得MOFS的标记。尽管存在这一局限性,FAHZZU3中预测的MOF亚型的生存分析显示与先前的发现一致的显著预后差异(P=0.00025),支持DNN分类的预测相关性(图6C)。MRI分类器显示出合理的一致性基于RNA的MOFS集成分类器,捕获了MOFS1、MOFS2和MOFS3亚型的一般趋势(图S14B)。这表明成像衍生的特征可以在很大程度上近似于转录驱动的亚型。然而,一些差异突出了仅依靠单一模式(如MRI或RNA)来完全捕捉多模式子类型的复杂性的固有局限性。为了方便研究人员和临床医生的实际应用,我们开发了一个可访问的工具,允许用户输入成像特征数据并获得MOF亚型预测(图6D)。

讨论

2016年和2021年世界卫生组织中枢神经系统肿瘤分类基于IDH突变4和33对成人弥漫性胶质瘤的分类有了重大改进,其中最新版本将IDH突变优先于组织学特征4。由于预后不良和高发病率,IDH-野生型GBM是一个特别值得注意的亚群34。以前的亚型系统出现得早于最新版本的WHO分类,该分类只关注组织学决定的GBM,而忽略了分子决定的GBM。此外,这些研究仅来自转录组数据,导致预后价值有限。随着人工智能的进步,将多模式数据整合到IDH-野生型胶质瘤亚型中势在必行,因为IDH-野生型胶质瘤的发病率高,同质性更强。在这项研究中,我们结合放射病理学和蛋白质基因组学来系统地研究IDH野生型胶质瘤的异质性。我们的研究结果表明,与传统的分类系统相比,MOF亚型提供了更好的预后价值,为了解GBM的生物学异质性提供了洞察力,并为不同亚型提出了具体的治疗策略。MOFS1是一种预后较好的神经亚型,具有较高的神经发育活性和丰富的神经细胞浸润。该亚型也是由Phillips等人于2006年提出的转录亚型8和Wang等人于2017年提出的转录亚型,也表现出相对较好的预后和神经发育特性。然而,Phillips等人提出的转录亚型系统8和Wang等人12包括了携带IDH突变的GBM的患者,因此落后于2021年WHO对中枢神经系统肿瘤的分类,后者将先前定义的IDH突变的GBM归类为IDH突变的星形细胞瘤,44级。在这项研究中,我们使用来自IDH野生型胶质瘤患者的多模式数据来识别神经原神经亚型(MOFS1),该亚型与传统的分类系统显示出中等的相关性。这表明在研究过程中,患者的选择和数据模式对研究结果有显著影响。值得注意的是,MOFS1胶质瘤包括23个组织学GBM(共102个),6个分子GBM(共8个)和5个IDH-野生型弥漫性胶质瘤(共6个)。这一成分表明,MOFS1已经确定了组织学上具有相对较好存活率的一部分GBM,以及几乎所有分子GBM和IDH-野生型弥漫性胶质瘤。尽管分子GBM是由TERT启动子突变决定的EGFR扩增/7号染色体全长增加和10号染色体全长丢失,在WHO最新分类4中被重新归类为IDH-野生型GBM,其预后明显好于IDH-野生型GBM35。这一结果与我们的结果一致,因为侵略性较弱的MOFS1包含了大部分分子GBM。IDH-野生型低度弥漫性胶质瘤在放射学和病理学方面与分子GBM无明显区别,而MOFS1几乎囊括了IDH-Wild型低度弥漫性胶质瘤,提示这些罕见实体也可能与分子GBM具有相似的生物学特性和临床转归。在遗传上,MOFS1富含DNAH3的高突变频率,这是一种与微管有关的基因运动性和三磷酸腺苷结合。WES先前的一项研究发现DNAH3是乳腺癌的高危变种36。MOFS2是一种预后不良的增殖性亚型,具有预后差、增殖活性高、基因组不稳定、肿瘤纯度高等特点。MOFS2主要包括30个组织学GBM,这可能是组织学GBM中最具侵袭性的亚群。与其他亚型相比,MOFS2表现出显著的CNV,其亚型特异性CNV基因显著丰富了与增殖相关的途径。这表明MOFS2的增殖特性可能是由CNV基因控制的。因此,我们进一步探讨了MOFS2特异性基因条带的临床意义和功能特征。该基因在MOFS2中仅有扩增和过表达,相应的预后分析显示,STRAP仅在MOFS2中具有预后价值,高表达或扩增提示这些患者预后不良。因此,亚型特异性基因条带可能是MOFS2增殖表型的重要组成部分,靶向该基因可能会改善MOFS2患者的临床预后。此外,进一步的分析显示,免疫治疗无效者表现出更高的MOFS2活性,可能与较高的肿瘤纯度和免疫成分减少有关。

MOFS3由一定比例的GBM组成,其组织学特征为富含TME的亚型,预后中等,具有丰富的免疫和基质成分。免疫渗透分析表明,MOFS3表现出高水平的免疫调节剂(如PD-1和PD-L1)和CD8+T细胞渗透,表明其具有免疫治疗益处的潜力,这在接受抗PD-1免疫治疗的GBM队列中得到了验证。此外,MOFS3还丰富了丰富的间质成分,是MOFS3的危险预后因素。有趣的是,在将间质丰度纳入MOFS分类后,MOFS3中不同的间质丰度显示出显著的预后价值。更具体地说,低间质组和高间质组的中位存活率分别与MOFS1和MOFS2相似。提示MOFS3亚型进一步按高/低间质分层可提供预后意义。为了促进临床可行性,我们确定了经典的间质标记物S100A4,它可以准确地预测间质水平并识别MOFS3患者。尽管结果令人鼓舞,但我们的研究也有局限性。首先,由于公共队列中缺乏多组学数据,对转录组数据用于分类器开发的依赖可能限制了对GBM全分子复杂性的捕获。未来的研究应该着眼于纳入更全面的多组学数据集,以提高分类器的准确性和稳健性。其次,虽然放射学分类器表现出很强的预测性能,但它在较大和外部队列中的验证对于确认其普适性是至关重要的。根据显性影像特征将单个MOFS分类分配给整个肿瘤,过度简化了GBM中经常观察到的空间异质性。结合空间分辨率来区分肿瘤区域可以提高预后的准确性,特别是在治疗后复发的情况下,区分治疗效果和真正的肿瘤复发仍然具有挑战性。此外,Al-Dalahmah等人利用scRNA-seq数据来描述基于细胞组成的预后GBM组织状态,提供了另一种视角,捕捉了MOFS框架的某些方面。单细胞RNA测序与多模式方法的更深层次整合可能会补充MOFS系统,并进一步完善其预后和生物学见解。最后,由于FAHZZU队列中缺乏MGMT甲基化状态数据,生存分析不能控制这一关键的预后因素。生存分析结果的可靠性会受到一定程度的影响。通过在肿瘤学的多模式集成中利用人工智能,MOFS分类系统可能代表着对GBM异质性的理解的重大进步,提供卓越的预后价值并为精确的肿瘤学提供信息。神经网络放射学分类器的开发进一步增强了我们研究结果的临床可译性,为预测MOFS亚型提供了一种非侵入性工具。我们的研究强调了整合多组学数据在癌症分类中的重要性,并为更个性化和更有效的GBM治疗铺平了道路。综上所述,这项研究整合了放射组织学和蛋白质基因组学,以提炼IDH-野生型胶质瘤中具有预后和治疗机会的三个亚型。多发性骨髓间充质干细胞的生物学和临床特点提高了对其异质性的认识,促进了临床分层和个体化管理。STRAP与MOFS2患者的预后和增殖表型显著相关,因此是该亚型潜在的治疗靶点。间质丰富程度可作为一项重要的预后指标,可重新评估MOFS3患者的生存风险。为了进一步方便研究人员和临床实践者,我们开发了基于MRI的分类器来预测MOFS亚型。我们相信,这种高分辨率的分类可以促进IDH野生型GBM患者的更有效的治疗。

方法

数据集与样本

本研究由郑州大学第一附属医院人文科学伦理委员会(FAHZZU;批准号:2019-KY-176和2023-KY-1028)批准。本研究中使用的所有新鲜肿瘤标本均已获得患者的知情同意。这项研究回顾了2015至2021年间在FAHZZU接受根治性切除的IDH野生型胶质瘤患者的数据。纳入标准为:年龄≥18岁;原发胶质瘤;综合诊断IDH野生型和低度弥漫性脑胶质瘤。根据2021年世界卫生组织的分类4对胶质瘤进行重新分类。入院前无放疗或化疗史;临床资料及随访资料完整;术前无严重全身异常;术前MRI图像包括T1WI、CE-T1WI、T2WI、FLAIR及ADC图,图像质量良好,无明显差异;HE染色病理切片清晰,扫描图像清晰;病理组织保存完好。排除标准为:脑外科手术或外伤病史;术前有过放疗或化疗;MRI上是否有伪影会影响病变观察或勾画。本研究纳入1194例MRI资料完整合格的IDH野生型胶质瘤患者。其中新鲜手术肿瘤标本202例。这些标本立即冷冻在液氮中,并储存在−80°C进行组织测序。其中202例进行了RNA测序,180例进行了质谱分析,122例进行了全外显子测序。通过扫描HE染色的病理切片,获得所有放射组学和测序数据的122例患者的组织学全切片图像(WSIS)。S1B)。手术前采集5例癌旁脑组织和19例外周血样作为WES的正常对照。本研究将122个包含所有模式数据的样本指定为FAHZZU1队列,将80个包含转录组或质谱学数据的样本指定为FAHZZU2队列,将992个仅包含MRI数据的样本指定为FAHZZU3队列(图2)。S1B)

磁共振成像扫描与图像特征提取

患者在常规检查中使用3.0T磁共振扫描仪(西门子Magnetom Skyra/Trio Tim;GE Discovery MR750;飞利浦雌驼龙)采集MRI图像。序列包括:轴位和矢状位T1加权成像(T1WI)、轴位T2加权成像(T2WI)、轴位T2加权液体衰减反转恢复(FLAIR)成像,以及静脉注射Gd造影剂后立即进行的轴位、矢状位和冠状位后T1加权成像(CET1WI)。轴位弥散加权成像(DWI)获得表观弥散系数(ADC)图。各序列的采集参数如下:

a.T1WI和CE-T1WI:重复时间(TR)220~1750ms;回声时间(TE)2.3~24ms;回声串长度(ETL)1~12;层厚5 mm;平均/激发次数1;翻转角(FA)70°~111°;视野(FOV)220×192~240×240mm2;矩阵256×162~320×256mm2。

B.T2WI:TR1873~5390ms;TE 70~117ms;ETL 16~32;层厚5 mm;平均/激发1;FA 90°~142°;视野220×192~240×240 mm~2;矩阵320×238~512×512 mm~2。

C.FLAIR:TR4500-8400ms;TE 85-150ms;反转时间(TI)1670-2250ms;ETL 1-38;层厚5 mm;平均/激发1;FA 90°-150°;FOV 220×192-240×240 mm2;矩阵256×179-256×256 mm2。

D.DWI:图像由相应的后处理工作站处理,根据b值为0和1000 S/mm2的DWI计算ADC图像。序列参数包括:TR2121~6000ms;TE 77~119ms;ETL1~82;层厚5 mm;平均/激发1;FA 90°;FOV220×220~240×240mm2;Matrix152×114~192×192mm2。所有成像平面的ADC图均采用单指数模型逐体素绘制。

首先,使用N4ITK算法来校正所有序列的偏置场失真。通过三线性插值法将各向同性体素重采样到1×1×1 mm³后,以轴向重采样的CE-T1WI为模板,以互信息为相似性度量,对每个患者进行多序列MRI刚性配准。这一过程是使用3D Slicer软件完成的,生成了注册图像rT1WI、RCE-T1WI、rT2WI、rFLAIR和RADC。直方图匹配用于rT1WI、RCE-T1WI、rT2WI和rFLAIR的灰阶归一化。我们将直方图级别设置为1024,然后将匹配点的数量设置为10,以实现更好的匹配,同时保留更多的细节。一位有10年以上头颅MRI诊断经验的神经放射学副主任医师使用ITK-SNAP软件在rFLAIR、rT2WI和RCE-T1WI图像的轴面上手动勾画肿瘤感兴趣区(ROI),获得肿瘤感兴趣区(VOI)。VOI定义为肿瘤的强化区、非强化区和坏死区。根据FLAIR图像绘制VOI轮廓,rT2WI和RCE-T1WI用于交叉检查肿瘤范围和微调肿瘤轮廓。在所有序列的VOI内应用Z-Score归一化,以调整ROI强度,使其平均值为0,标准差为1。这位放射科医生和一位神经外科副主任医师,有10年以上的工作经验,采用简单随机抽样的方法,在组内随机选择100名患者进行VOI重绘。组间相关系数用于评估重测数据集的评分员内可靠性分析和多描述数据集的评分员间可靠性分析,保留了ICC0.75的≥特征。然后将获得的VOI与共同配准的rT1WI、RCE-T1WI、rT2WI、rFLAIR和RADC图像叠加。利用辐射组学方法提取了三类特征,包括一阶强度统计量、形状描述子和高阶纹理特征。用5个基本矩阵定义纹理特征:灰度共生矩阵(GLCM)、灰度游程长度矩阵(GLRLM)、灰度大小区域矩阵(GLSZM)、灰度相关矩阵(GLDM)和邻域灰度差分矩阵(NGTDM)。在本研究中,从三种类型的图像中提取成像特征:原始图像、小波图像和高斯拉普拉斯图像。为了增强特征提取(https://github.com/Zaoqu-Liu/MOFS).)的重现性,在Github库中提供了Py Radiome参数文件最终,从5个磁共振序列中提取了5929个特征,保留了4271个特征,ICC≥为0.75。

苏木精伊红(H&E)组织学切片扫描及特征分析

病理切片用数字病理扫描仪(KF-PRO-120-HI)以×20倍的倍率扫描,获得完整的原始切片图像(WSI)。随后,原始WSI经过颜色空间转换、组织分割、块选择和特征提取。具体地说,将5倍分辨率的WSI从RGB转换到Lab色空间,然后应用Otsu的算法来计算分割阈值,以从WSI中分割出组织。将获得的组织图像以×20倍的倍率拼接成多个1024×1024个斑块,这些斑块彼此相邻,覆盖WSI。使用了一个Python包Yottixel来选择最优的补丁进行进一步分析38。最后,使用CellProfiler(v4.2.5)软件对每个选定的贴片进行特征提取。

全外显子组测序及分析

用QIAAmp快速DNA组织试剂盒(QIGEN)提取肿瘤组织和邻近脑组织DNA。血样收集在含有EDTA的试管中,在采集后2小时内,在4°C下1600×g离心10min。将外周血淋巴细胞颗粒保存在−20℃下保存,用Relaxgene血液DNA系统(北京天根生物科技有限公司,中国)提取外周血淋巴细胞DNA。使用Qubit 3.0荧光计和Qubit dsDNAHS分析试剂盒(Thermo Fisher Science,Inc.,Waltham,MA,USA)进行DNA定量。使用dsDNA碎片酶(New England BioLabs,Inc.,Ipswich,MA,USA)对从组织和PBL样本中收集的DNA进行碎片化,然后使用Ampute XP珠子(Beckman Coulter,Inc.,Brea,CA,USA)对DNA片段(150-250bp)进行大小选择。KAPA图书馆制备试剂盒(Kapa BiosSystems,Inc.,Wilmington,MA,USA)用于构建DNA片段文库。使用Agencourt AMPure XP珠子(Beckman Coulter,Inc.,Brea,CA,USA)执行清理步骤。DNA片段化后,进行末端修复和3'A拖尾,然后使用Agilent SureSelect Human All Exon V6试剂盒捕获外显子。用Qubit 3.0荧光分光光度计和Qubit dsDNA HS分析试剂盒检测DNA片段的纯度和浓度。使用DNA 1000试剂盒(Agilent Technologies,Inc.,Santa Clara,CA,USA)在4200生物分析仪(Agilent Technologies,Inc.,Santa Clara,CA,USA)上测量片段长度。使用Illumina Novaseq 6000系统对具有150bp末端序列的DNA文库进行测序。原始数据被转换为FASTQ文件,并使用Trimomatic(v0.39)调整适配器和低质量读取。肿瘤标本和非肿瘤标本的平均覆盖深度分别为112倍和128倍。GATK(v4.2)工具用于确定单核苷酸变异(SNV)和插入或缺失(INDELs)。使用BWA-mem(v0.7.17)将成对的WES片段映射到人类参考基因组(Hg38)。通过使用Picard(v2.24.2)对BAM文件进行重新排序、排序、标记重复项和添加读取组,对BAM文件进行了进一步处理。使用GATK中的BaseRecalibrator模块进行基本质量分数重新校准,然后使用GetPileupSummary和CalculateContaination模块评估交叉样本污染。通过MuTect2检测到体细胞变异,并使用ANNOVAR注释,以患者匹配的正常DNA测序读数作为参考。根据以下筛选标准进行筛选:1排除外显子区域和剪接点以外的变异;保留肿瘤样本中2个变异等位基因比例(≥)为5%的变异和至少2个支持变异读数的变异;3删除至少一个数据库中变异等位基因频率(MAF)为5%的变异,包括1000个基因组、ESP6500、gnomAD和≥。用相同的方案对正常样本进行测序,每个样本减少到4%,然后合并作为参考。为了获得高质量和可靠的体细胞变异,我们采用了严格的向下过滤标准:1排除了外显子区域和剪接点以外的变异;保留了2个VAF≥为5%的变异,在肿瘤样本中至少有5个支持VAF的变异,以及肿瘤中VAF超过正常样本VAF的5倍的变异;保留了3个在COSMIC(V92)中出现100次以上的变异;删除了至少一个变异数据库(1000基因组、ESP6500、GNOMAD和Exac)中MAF≥为1%的变异;在以下工具中,至少有两个工具预测为良性的5个变体被移除:MutationAsessor、MutationTaster2、Polyhen2和SIFT。CNVkit(v0.9.9)基于体细胞突变检测过程中产生的BAM文件,使用默认的圆形二进制分割算法来推断体细胞CNV。计算片段水平的log2比率,并将其转换为GISTIC2.0软件的输入,以确定肿瘤中显着扩增或缺失的染色体区域。用±0.3log2比值阈值定义CNV扩增和缺失。

RNA测序(RNA-SEQ)和分析

使用Trizol试剂盒(Ambion,Invitgen,USA)从组织样本中提取总RNA。使用Qubit RNA分析试剂盒、Qubit 2.0荧光仪(Life Technologies)和安捷伦2100生物分析仪(Agilent Technologies)评估RNA浓度和完整性。RNA完整性数大于5的样本被包括在研究中。文库是从RNA完整性高、无污染、RNA含量充足的样品中制备的。用Poly-T寡核苷酸磁珠从总RNA中提纯RNA。在NEBNext第一链合成反应缓冲液(5X)中,用二价阳离子在高温下裂解RNA。使用NEBNext Ultra RNA文库制备试剂盒进行DNA合成、末端修复、A-Tail和NEBNext接头连接。图书馆用AMPure XP(Beckman Coulter,Beverly,USA)纯化片段,选择长度为150-200bp的cDNA片段。文库质量使用安捷伦生物分析仪2100进行评估。在Illumina HiSeq X Ten平台上对文库进行测序,产生150bp的成对末端阅读。使用Trimomatic软件过滤测序数据以去除接头和低质量序列,然后使用FastQC进行数据质量评估。用STAR(v2.7.6a)将序列与参考基因组(Hg38)进行比对。使用基于GENCODE(V35)基因注释文件的RSEM(v1.3.3)计算基因表达值。使用HTSeq v0.6.0计算与每个基因比对的读数,并将基因表达水平量化为FPKM(每百万个映射片段中每千个碱基的外显子模型片段)和TPM(每百万个映射读取中每千个碱基的外显子模型的转录本)。

质谱学

将样品从−80°C存储中取出,称量适量的组织并放入液氮预冷砂浆中。加入液氮,将组织彻底研磨成粉末。裂解缓冲液(1%Triton X-100,1%蛋白酶抑制剂,1%磷酸酶抑制剂,3μ甲氨蝶呤,50mMNAM)以4倍于粉末的体积加入每个样品中,然后超声裂解。样品在4℃,12000×g的温度下离心10min,去除细胞碎片,上清液转移到离心管中。用BCA试剂盒测定蛋白质浓度。每个样品中的等量蛋白质用胰酶消化,并用裂解缓冲液调节体积。加入1体积的预冷丙酮,旋转,然后加入4体积的预冷丙酮,然后在−20℃下沉淀2小时。样品在4500×G下离心5min,去掉上清液。用预冷的丙酮清洗颗粒两次。风干后,将颗粒重新悬浮在200mMTEAB中,并以1:50的比例添加胰酶(蛋白酶:蛋白质,w/w),过夜消化。将二硫苏糖醇(DTT)加入到5 mM的最终浓度,并在56℃下还原30分钟。将碘乙酰胺(IAA)加入到11 mM的最终浓度,样品在室温下黑暗中孵育15min。样品用Agilent 300ExtendeC18色谱柱(4.6×250 mm)分离,检测波长214 nm,柱炉温度35℃,95%缓冲液A 30min使色谱柱平衡。基线稳定后,启动分级梯度法,将多肽样品加载到高效液相色谱柱上。每隔1分钟采集样品,将组分11至46组合成12组并真空干燥。多肽在流动相A中溶解,并用Easy-NLC 1200超高效液相系统分离。流动相A由0.1%的甲酸和2%的乙腈水溶液组成,流动相B由0.1%的甲酸和90%的乙腈水溶液组成。梯度设置如下:0-96min,6%-25%B;96-114min,25%-35%B;114-117min,35-80%B;117-1200min,80%B,流速保持在500nL/min。分离的多肽在NSI离子源中电离,并使用Orbitrap Exploris 480质谱仪收集数据。液相色谱(LC)参数与文库构建过程中使用的参数一致。用超高效液相色谱系统分离多肽,并用Orbitrap Exploris 480质谱仪进行分析。利用高分辨Orbitrap对前体离子及其碎片离子进行了检测和分析。FAIMS补偿电压(CV)设置为−40 V、−55 V和−70 V。一次质量扫描范围设置为350-1350m/z,分辨率为120,000;二次扫描分辨率设置为30,000。二次数据采集模式被设置为DIA模式,在20m/z窗口多肽离子以32%的碰撞能量进入HCD碰撞池的第一次扫描之后用于碎裂和随后的二次质量分析。二次频谱的自动增益控制(AGC)设置为600%。

公共数据库中GBM数据的收集与处理

在本研究中,我们的目的是从公共数据库中收集尽可能多的多形性胶质母细胞瘤(GBM)测序数据,以验证结论并丰富研究内容。我们从基因表达总表(geo;https://www.ncbi.nlm.)中收集了16个GBM数据集和中国胶质瘤基因组图谱(CGGA;http://www.cgga.org.cn/),包括GSE72951(GPL14951)、GSE43289(GPL570)、GSE43378(GPL570)、GSE7696(GPL570)、GSE13041(GPL570和GPL96)、GSE15824(GPL570)、GSE33331(GPL570)、GSE74187(GPL6480)、GSE83300(GPL6480)、GSE4271(GPL96和GPL97)、GSE4412(GPL96和GPL97)、GA-ARRAY(GPL4133)和GARNAseq(Iumina Seq)。从作者上传的系列矩阵文件中获得样本的转录表达谱和临床数据。我们使用LIMMA软件包中的NormizeBetweenArray函数对微阵列数据进行分位数归一化。随后,在去除批次效应后,我们从同一测序平台产生了数据集,得到GBMGPL570(n=215)、GBM-GPL6480(n=110)、GBM-GPL96(n=326)和GBM-GPL97(n=135)队列。SVA包中的战斗功能用于消除批次效果。最后,使用尺度函数对每个数据集进行标准化。从Sequence Read Archive(SRA,https://www.ncbi.)获得具有抗PD-1免疫治疗信息的基底膜患者的原始转录组测序数据Nlm.nih.gov/sra)数据库,由赵等人上传。(SRA加入:PRJNA482620)32.

无监督聚类的多模式融合算法

整合多模式数据可以揭示在单一模式分析中可能被掩盖的因果特征,并通过探索各种模式之间的相互作用以及这些关系如何导致患者结果的差异,从而全面了解疾病的复杂性24,39。根据时间段的不同,多通道数据融合策略可以分为早期融合、中期融合和后期融合。早期融合将所有形式的数据连接成一个单一的矩阵,这会导致后续分析中的"维度诅咒"和变量漂移,并且无法纠正多模数据的不平衡,这可能会对后续分析产生不利影响。后期融合涉及单独分析每个组学层面,然后整合结果以产生一致的结果和输出。然而,这种方法牺牲了多模式数据的互补性信息。中间融合通常包括同时整合和聚类,以连接不同组学层次之间的依赖,识别多模式联合簇,并推断患者分层和分子机制24,40。总体而言,中间融合更先进,但对集成算法的要求更高24.我们通过基于不同原理集成11个算法进行多模式数据(FAHZZU1队列)的中间融合,然后对11个算法获得的结果进行后期融合以产生最终的聚类结果(图1A)。我们的过程如下:

1.数据预处理:对于突变数据,生成一个二进制矩阵,其中0表示野生型,1表示突变。对拷贝数变异(CNV)数据进行片段平均值分析,捕捉染色体的扩增和缺失。将RNAseq数据预处理为log2(FPKM)值。蛋白质数据被类似地归一化为log2强度值以确保可比性。对于病理学和放射学数据,特征提取导致了定量度量。这些值代表了不同的描述符,包括MRI的一阶统计量、纹理和基于形状的特征以及病理学的细胞级属性。

2.聚类变量的选择:为了确定最佳聚类变量数,我们首先计算了放射学、WSI、转录学和蛋白质组学等各层变量的中位绝对偏差(MAD)。然后我们从每一层中选择前n个变量,并将它们组合成2640个变量组合(补充数据3)。针对每个组合计算聚类预测指数(CPI)25和缺口统计26,并基于CPI和GAP的最大和的组合来确定用于最终聚类的最佳聚类数目和输入特征。CPI计算是使用IntNMF R程序包实现的。用MOGSA R软件包计算GAP统计量。

3.采用CIMLR、CPCA、iClusterBayes、IntNMF、LRACLUSTER、MCIA、NEMO、PINSPlus、RGCCA、SGCCA和SNF29(补充数据2)等11种基于不同原理的算法对多模式数据进行中间融合。

4.将聚类结果转换成二进制矩阵41.每个聚类由单独的列表示,并且每个样本在与其聚类对应的列中被赋值1,而在所有其他的列中被赋值0。使用11个算法的二进制结果计算Jaccard指数,以评估样本之间的相似性。

5.基于Jaccard距离矩阵,使用聚类分析(COCA)24从11个算法中获得一致的结果。具体地说,在每次迭代中随机选择70%的样本,这个过程重复10000次,以生成共识矩阵。

6.用模糊聚类比例(PAC)27和Calinski和Harabasz指数(CHI)28评价聚类数的适合性。

7.计算每个簇的轮廓系数42,并去除轮廓系数小于0.4的样本以获得核心样本集。

功能浓缩分析

本研究整合了MSigDB数据库(http://www.gsea-msigdb.org/gsea/msigdb/).)中的C2-CP、C5-GO和Hallmark基因集使用三种方法对不同亚型的转录或蛋白质组数据进行功能富集化分析,包括单样本基因集测试(SsGST)11、过度代表性分析(ORA)43和基因集富集化分析(GSEA)44。使用yaGST软件包进行ssGST分析,以获得每个样本中每个途径的归一化富集分数(NES)。然后,对不同亚型的每个途径进行差异分析,认为具有FDR<0.001和Nes Difference>1的途径显著丰富。使用Metascape工具中的默认参数进行ORA分析。使用ClusterProfiler软件包进行GSEA分析,并认为具有FDR<0.001的通路显著丰富。

基因组改变分析

使用MAFTOOLS软件包处理突变数据,计算每个样本的单核苷酸变异(SNV)、插入/缺失(INDELs)和肿瘤突变负荷(TMB)。所有样本中突变频率大于5%的基因都被保留下来。广泛性和局灶性CNV负荷分别定义为发生在染色体臂和局灶节段的CNV的总和。由于本研究中MS检测到的蛋白质数量有限,因此将mRNA表达谱与CNV相关联以确定CNV的功能基因。计算每个基因的mRNA表达与CNV变异分数之间的Pearson相关性,保留FDR<0.05和Pearson系数≫0.3的基因(n=3888)。随后,用±0.3的临界值定义CNV的扩增和缺失,并保留变化率为>5%的基因。如果一个基因的某个CNV变异频率相对较高,被认为是该基因的显性变异。显性变异大于非显性变异两倍以上的基因被保留(n=2168)。用Fisher's精确检验检验各基因3个亚型之间的CNV差异,保留FDR<0.05的基因(n=1023)。

转录组和蛋白质组表达谱分析

用Kruskal-Wallis检验比较三个亚型之间的差异基因表达,并保留FDR<0.05的基因。随后,用Wilcoxon秩和检验进一步比较两组之间的表达差异,并将FDR<0.05的基因视为亚型特异性基因。

MOF系综分类研究进展

鉴于公共数据库中有大量高质量的GBM转录数据,我们开发了一个基于转录组表达谱的综合分类框架来识别外部队列中的MOF亚型。开发过程基于FAHZZU1队列作为训练集,如图所示。S7:

1.对每个亚型的所有基因进行Logistic回归和受试者操作特征(ROC)分析。每个亚型都保留了FDR;0.05和ROC曲线下面积(AUC;GT;0.7)的基因。

2.采用Lasso算法进行特征选择和降维,将Lasso系数不为零的基因作为输入变量进行建模。

3.该分类器集成了17种算法,包括GST、自适应Boosting(AdaBoost)、决策树(DT)、弹性网络(Enet)、梯度增强决策树(GBDT)、k近邻(KNN)、LASSO、线性判别分析(LDA)、朴素贝叶斯(NBayes)、神经网络(NNet)、主成分分析(PCA)、随机森林(RF)、岭回归、逐步Logistic回归(StepLR)、奇异值分解(SVD)、支持向量机(SVM)和XGBoost。每个算法的输出是三个亚型的概率,并且三个亚型的概率之和等于1。显示与训练集不一致的中位生存趋势的算法被认为是不合格的。

4.对于每个亚型,以所有合格算法的平均判别概率作为最终亚型概率,概率最高的亚型作为最终分类结果(图2)。S7A)。

5.分类器最初针对所有具有真实MOF标签的样本进行训练。在FAHZZU1队列中,我们执行了60:40的随机拆分,以生成两个独立的子集:FAHZZU1est1和FAHZZU1-est2。两个子集的结果混淆矩阵一致地显示了三个MOF亚型的高分类精度,预测的亚型标签和实际的亚型标签之间具有稳健的比对(图3)。S7B-C)。随后,我们评估了模型在两种不同的归一化方案下的稳健性,即TPM(每百万次转录)和跨多个数据集的FPKM。FAHZZU1(图2)的混淆矩阵。S7D)和CGGA-RNAseq(图S7E)的队列进一步肯定了该分类器表现出了相当的准确性。为了确保模型的公平性和可靠性,我们随后进行了分层分析,将一系列临床和治疗相关变量考虑在内。这些分析的结果一致显示,所有人口统计和治疗亚组的表现都是平衡的。综上所述,这些结果证明了集成MOFS分类器的稳定性。

肿瘤微环境(TME)分析

评估包45用于评估免疫成分、间质成分和肿瘤纯度的丰度。GBM表达式数据。单样本基因集浓缩分析(SsGSEA)算法46被用来计算免疫细胞和基质细胞的渗透丰度,该算法基于先前对GBM9、47、48的单细胞研究的标记。基于SSGSEA的浓缩分数是样本间基因签名活动的相对指标,而不是反映绝对细胞计数或组织学观察。免疫调节基因集是从TISIDB数据库(http://cis.hku.hk/TISIDB/)49)下载的,包括五类:抗原提呈、免疫共刺激、免疫检查点、趋化因子和受体。比较不同亚型之间TME成分、细胞丰度和免疫调节因子的差异。为了更好地描述肿瘤-免疫周期(CIC),我们构建了一个由肿瘤抗原性、T细胞趋化和渗透、T细胞免疫、肿瘤细胞识别、T细胞激发和激活、免疫刺激因子、免疫抑制分子和细胞毒八个方面组成的免疫图谱50。肿瘤抗原性用log2(TMB)表示。细胞毒性是根据Rooney等人提出的公式计算的,其他途径是使用已公布的免疫周期基因集和GSVA程序包计算的。在绘制免疫图谱时,每个患者的八条免疫途径中每一条的得分都被转换为Z得分。如果M代表得分的平均值,SD代表得分的标准差,则每个患者的最终得分被计算为3+1.5×(SCORE-M)/SD50。

组织微阵列

购自SUPERBIOTEK公司(上海中生泰克制药技术有限公司,上海,中国),2个胶质瘤组织芯片(NGL1001)。肿瘤患者的临床数据来自该公司的官方网站。

免疫组织化学染色

免疫组织化学实验使用抗STRAP(18277-1-AP,Proteintech;1:200)和抗S100A4(16105-1-AP,Proteintech;1:200)。染色百分率分别为1(1~25%)、2(26~50%)、3(51~75%)或4(76~100%),染色强度从0(无信号色)到3(淡黄色、棕色、深棕色)。将阳性细胞百分率与核染色强度积分相乘,计算出最终的免疫组化评分。

基于MRI特征的深度神经网络模型预测MOFS亚型

在临床实践中,与分子组学数据相比,放射学图像具有方便、低成本、非侵入性获取等优点。为了促进我们工作的临床翻译,本研究采用了一种基于弹性反向传播的神经网络算法,进一步提高了研究的临床实用性。研究过程如下:

1.特征选择:对于每个MOFS亚型,保留单因素Logistic回归P值<0.01的MRI影像特征。然后,用自助法从所有样本中随机抽取70%的样本进行Logistic回归,重复1000次。具有重采样过程的基因保持在95%以上的显着性水平(P&lt;0.05)。其次,利用Lasso算法进行进一步降维和模型简化,保留Lasso系数非零的输入变量作为建模的输入变量。

2.超参数优化:我们将FAHZZU1队列按7:3的比例分为训练集和测试集。使用神经网络包构建神经网络模型,参数包括学习率、损失函数、激活函数、隐含层数和每层节点数。我们通过网格搜索进行超参数优化,选取测试集上精度最高的参数组合作为最终模型。

3.模型验证:使用混淆矩阵和ROC分析对训练集、测试集、FAHZZU2验证集和FAHZZU3验证集进行验证。

统计分析

所有数据处理、统计分析和绘图均使用R软件(版本4.2.2)进行。两组间的连续变量比较采用Wilcoxon秩和检验或t检验,三组间的连续变量比较采用Kruskal-Wallis检验或方差分析。分类变量采用Fisher精确检验。用Spearman或Pearson相关系数评价两个连续变量之间的相关性。生存分析和Kaplan-Meier曲线绘制使用Surviminer和Survminer软件包。用BenjaminiHochberg方法对多次比较P值得到的FDR值进行校正。所有的统计检验都是双侧的,P<0.05表示有统计学意义

数据的可用性与代码的可用性

本研究中产生的原始WES和RNA-SEQ数据已保存在基因组序列档案(GSA)数据库中,登录号为HRA006184。支持这项研究结果的基于MS数据的蛋白质组学原始数据已保存在iProX数据库中,登录号为PXD062023。具有抗PD-1免疫治疗信息的基底膜患者的原始转录组测序数据来自Sequence Read Archive(SRA,https://www.ncbi.nlm.nih.gov/sra)数据库,由Zhaooet等人上传)。(SRA加入:PRJNA482620)。原始放射学数据和病理组学数据受到保护,由于数据隐私法的规定,这些数据不可用。已处理的组学数据可在https://doi.org/10.5281/zenodo.上获得14898297。这项研究中使用的数据受到控制,只有在合理的要求下,合格的研究人员才能获得。限制:访问仅限于与公认机构有关联的研究人员,并需要获得相关伦理委员会和数据管理委员会的批准。访问程序:感兴趣的研究人员必须提交一份正式的请求,概述他们的研究目标,并提供他们所在机构的科学和数据管理委员会的批准函。审查和批准过程通常需要大约一个月的时间。联系方式:如有查询,请与郑州大学第一附属医院神经外科张振宇医生联系,电子邮件地址为fcczhangzy1@zzu.edu.cn。

MOFSR包在Github(https://github.com/ZaoquLiu/MOFS).)上提供

相关推荐
难以触及的高度1 小时前
Dify 本地部署实操全教程:零基础快速搭建私有化 AI 应用
人工智能·ai·github·ai编程·dify
MartinYeung51 小时前
[论文学习]网路知识产权面临风险:防止大型语言模型未经授权即时检索
人工智能·学习·语言模型
继续商行2 小时前
Go性能调优实战:从pprof火焰图到内存逃逸分析的完整优化路径
人工智能
小小测试开发8 小时前
安装 Python 3.10+
开发语言·人工智能·python
KaMeidebaby9 小时前
卡梅德生物技术快报|PD1 单克隆抗体定制配套 N 糖全谱质控开发
前端·人工智能·算法·数据挖掘·数据分析
我叫唧唧波9 小时前
Python+AI 全栈学习笔记
人工智能·python·学习
哈哈,柳暗花明10 小时前
人工智能专业术语详解(E)
人工智能·专业术语
AI极客菌10 小时前
AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
大数据·人工智能·ai·ai作画·stable diffusion·aigc·midjourney
人工智能AI技术10 小时前
FLUX.2[klein]开源!小香蕉平替,本地部署AI绘画的极简方案
人工智能·ai作画·aigc