文献解读-Prediction of axillary lymph node metastasis in triple-negative breast canc

关键词:群体基因组;三阴性乳腺癌(TNBC);淋巴结转移(LNM);


文献介绍

  • 标题(英文) :Prediction of axillary lymph node metastasis in triple-negative breast cancer by multi-omics analysis and an integrated model
  • 标题(中文) :基于多组学分析和整合模型的三阴性乳腺癌腋窝淋巴结转移预测
  • 发表期刊:Ann Transl Med
  • 作者单位:复旦大学附属肿瘤医院等
  • 发表年份:2022
  • 文章地址doi.org/10.21037/at...

图1 文献介绍

三阴性乳腺癌(TNBC)是一种侵袭性强、预后较差的乳腺癌亚型。准确预测TNBC患者的腋窝淋巴结转移(LNM)状态对于制定个体化治疗方案至关重要。尽管前哨淋巴结活检(SLNB)是当前的标准方法,但它仍然具有侵入性和潜在并发症风险。因此,开发一种非侵入性的、准确的LNM预测工具成为当前研究的重点。


测序流程

在该研究中,研究者使用Sentieon软件中TNseq模块和TNscope模块同时进行体细胞突变检测。

图2 Sentieon的作用

本研究基于复旦大学上海癌症中心的TNBC多组学队列,采用了综合的多组学方法来预测TNBC患者的LNM风险。研究组收集并分析了445名TNBC患者的临床病理信息、基因组数据和转录组数据。其中,169名患者为LNM阳性,276名患者为LNM阴性。通过比较LNM阳性和阴性病例之间的差异,研究者识别出了潜在的LNM相关标志物。

图3 队列的组成和划分。(A) 所有数据被分为腋窝淋巴结阳性和阴性组:(I) 共纳入445名患者,169名腋窝淋巴结阳性,276名阴性;(II) 全外显子测序(WES, n=265);(III) 体细胞拷贝数变异(SCNA, n=385);(IV) 转录组(n=346);(V) 所有患者均有临床病理信息。(B) 训练集和验证集的定义。根据手术时间将整个队列分为训练集(n=305, 68.5%)和验证集(n=140, 31.5%)。LN, 淋巴结;SCNA, 体细胞拷贝数变异;TNBC, 三阴性乳腺癌。

在基因组层面,研究发现LNM阳性病例的突变事件中位数为54,略高于阴性病例的49。体细胞拷贝数变异(SCNAs)分析显示,LNM阴性病例的SCNAs扩增和缺失频率分别达到68.9%和82.3%。转录组分析则识别出了3,420个差异表达基因,占总基因数的10.9%,其中1,954个基因在LNM阳性病例中上调,1,466个基因下调。

图4 淋巴结阳性和阴性患者的基因组差异。(A) 淋巴结阳性和阴性患者的突变特征。每列代表一个患者。上方条形图显示肿瘤突变负荷(TMB)。右侧数字表示每个基因的突变频率。(B) 淋巴结阳性和阴性患者之间的显著突变差异。图中显示突变事件数量和精确P值(Fisher精确检验)。(C) 淋巴结阳性和阴性患者的SCNA。每个垂直条表示一个基因的扩增(深红)、获得(浅红)、缺失(深蓝)和丢失(浅蓝)频率。(D) 比较淋巴结阳性和阴性患者在扩增为中心(黄色)或缺失为中心(绿色)计算中的SCNA(Fisher精确检验)。

研究组基于不同类型的组学数据分别构建了预测模型。在训练集和验证集中,这些单一组学模型的AUC值范围从0.501到0.805不等。具体而言,临床模型在训练集和验证集中的AUC分别为0.624和0.602;突变模型的AUC为0.591和0.501;SCNA模型的AUC为0.805和0.558;表达模型的AUC为0.777和0.656;Lehmann亚型模型的AUC为0.656和0.650;FUSCCTNBC亚型模型的AUC为0.623和0.627。

图5 临床模型构建的细节。(A) 训练集中临床模型的受试者工作特征(ROC)曲线下面积(AUC)。(B) 验证集中临床模型的AUC。

图6 突变模型构建的细节。(A) 基于训练集的所有突变特征的最小绝对收缩和选择算子(LASSO)系数曲线。(B) 使用LASSO算法选择最佳突变特征。(C) 训练集中突变模型的AUC。(D) 验证集中突变模型的AUC。

为提高预测准确性,研究者整合了各模型的优势特征,最终确定了5个关键预测标记:肿瘤大小、ZBTB6和MTHFD1的SCNAs,以及GLP1R和NPY5R的mRNA表达水平。基于这些标记构建的多组学预测模型展现出卓越的性能,在训练集和验证集中的AUC值分别达到0.790(95% CI: 0.711--0.869)和0.807,显著优于单一组学模型。

图7 四个单组学预测模型和一个多组学模型的性能。(A) 训练集中六个单组学模型预测LNM的AUC性能。(B) 验证集中六个单组学模型预测LNM的AUC。(C) 基于训练集的105个ALN状态相关标记的LASSO系数曲线。(D) 使用LASSO算法识别ALN状态相关标记,在训练集中选择25个最佳标记。(E) 使用AUC显示多组学模型在训练集中的性能,并添加95%置信区间。(F) 使用AUC显示多组学模型在验证集中的性能,并添加95%置信区间。

此外,研究还探索了一种全面集成的方法,将所有多组学因素纳入考虑,构建了更为复杂的集成模型。该模型在训练集和验证集中的AUC值分别为0.83和0.73,进一步证实了多组学方法在提高预测准确性方面的优势。

Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。 截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。


文献讨论

图8 文献讨论

研究旨在为三阴性乳腺癌患者提供更准确的腋窝淋巴结转移风险评估工具。研究者综合分析了临床病理信息、基因组和转录组数据,构建了一个多组学预测模型。结果显示,该多组学模型表现优于单一组学模型,能更好地区分淋巴结阳性和阴性病例。

研究发现,不同组学技术对预测的贡献不同,其中转录组数据显示最显著差异。最终模型包含了5个关键预测因素,涉及肿瘤大小、特定基因的拷贝数变异和RNA表达水平。这些发现为TNBC淋巴结状态预测提供了新的思路。


总结

该研究首次利用大规模TNBC多组学数据分析LNM相关特征,建立了一个稳健的多组学LNM预测模型。不仅有助于TNBC患者的精准淋巴结管理,还为进一步研究TNBC淋巴结转移机制提供了重要线索。例如,研究发现与免疫和中性粒细胞相关的通路在LNM阳性病例中显著上调,这为理解TNBC转移机制提供了新的视角。

相关推荐
赵大仁2 小时前
【AI】探索 Anything LLM:解锁多领域语言模型的无限可能
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据分析
小小的guo11 小时前
近红外数据预处理和简单分析matlab
笔记·matlab·数据分析
乙真仙人15 小时前
重新定义数据分析:LLM如何让人专注真正的思考
大数据·人工智能·信息可视化·数据挖掘·数据分析
Echo bigdata15 小时前
系统认识数据分析
数据挖掘·数据分析
Amd7941 天前
深度剖析 GROUP BY 和 HAVING 子句:优化 SQL 查询的利器
sql·性能优化·数据分析·group by·聚合函数·数据分组·having
羊小猪~~1 天前
EDA数据分析结合深度学习---基于EDA数据分析和MLP模型的天气预测(tensorflow实现)
pytorch·python·深度学习·机器学习·数据挖掘·数据分析·tensorflow
长弓同学1 天前
python语义分析实战--基于LDA主题建模、TextBlob情感分析的评论数据分析及可视化(附代码)
开发语言·人工智能·python·数据挖掘·数据分析
dandellion_1 天前
【数据分析】一、初探 Numpy
python·学习·数据挖掘·数据分析·numpy
西岸风1662 天前
【开题报告】基于机器学习的运动鞋销售数据分析与预测
人工智能·机器学习·数据分析