【无标题】 - 技术栈

癌症早诊标记物设计及其演化机理认知

摘要

癌症的早期诊断是提高患者存活率的关键挑战。本文基于 TCGA 乳腺癌 RNA-seq 基因表达数据（13,163 个基因，396 个样本，涵盖正常、早期和晚期三组），系统性地进行了差异基因筛选、诊断标记物设计和异质性分析。首先，通过 Welch t 检验结合 BH-FDR 校正，识别出 2,291 个早期差异基因和 2,513 个晚期差异基因，发现早期vs晚期仅有 6 个差异基因，表明基因表达模式的剧变主要发生在癌症早期。其次，整合 LASSO、随机森林和 ANOVA F 值三种特征选择方法，构建了基于 20 个核心基因的精简诊断标记物集合，仅需 5 个基因即可在交叉验证中实现近 100% 的早期诊断准确率（AUC=1.000）。进一步，构建了基因表达对比值作为"基因关系特征"，增强了模型的生物学可解释性。最后，针对患者异质性问题，提出了基于信噪比和组内变异系数的鲁棒标记物筛选策略，并通过秩变换等方法有效缓解了异质性对分类的影响。本研究为乳腺癌早期分子诊断提供了可验证的量化指标和理论框架。

关键词： 基因表达；差异分析；生物标记物；机器学习；异质性；癌症早期诊断

一、问题重述

1.1 问题背景

癌症是一种与遗传变异密切相关的疾病。由于癌症早期症状不明显，多数患者在确诊时已处于中晚期，错过了最佳治疗窗口。传统的癌症诊断手段（肿瘤大小评估、转移检测、生化指标、病理影像等）高度依赖检测精度和医生经验。根据分子生物学中心法则，基因表达异常往往先于表观性状改变，因此基于基因表达数据的分析有望实现癌症的早期发现，并为癌症机理认知提供新视角。

1.2 问题提出

本文需要解决以下三个核心问题：

问题 1： 在癌症早期与晚期，分别有哪些基因表达发生显著变化？这些基因之间有何关系？

问题 2： 设计或分析能够作为诊断标记物的基因特征（包括单基因或基因间关系），给出量化指标，评价识别准确性，并特别给出早期癌症诊断标记物。

问题 3： 如何消除不同患者之间强异质性对分析的影响？

1.3 数据说明

数据集	样本数	基因数	样本ID特征
附件1：Normal_exp.csv	99	13,163	TCGA-xx-xx-11（正常组织）
附件2：EarlyStage_exp.csv	128	13,163	TCGA-xx-xx-01（早期肿瘤）
附件3：LaterStage_exp.csv	169	13,163	TCGA-xx-xx-01（晚期肿瘤）

二、数据预处理

2.1 数据清洗

首先检查各数据集的缺失值情况。经检查，三个数据集中均不存在缺失值，数据完整性良好。

所有基因在所有样本中的平均表达值均大于 1，无需进行低表达基因过滤。

2.2 数据变换与标准化

原始数据范围在 0 到 1,799,044 之间，中位数为 576，属于典型的高通量 RNA-seq 计数级别数据。为消除样本间测序深度差异并改善数据分布，对原始数据进行了 log⁡2(FPKM+1)\log_2(\text{FPKM}+1)log2(FPKM+1) 变换。变换后数据范围为 $0,19.95$ $0, 19.95$ $0,19.95$ ，更接近正态分布，适合后续参数检验。

2.3 初步探索性分析

对变换后的基因表达矩阵进行主成分分析（PCA）。前两个主成分分别解释了 15.8% 和 9.4% 的方差，累计 25.2%，说明数据中存在较高的组内异质性------甚至同一病理状态的患者之间也存在较大基因表达差异。

三、问题1的求解：差异表达基因识别与分析

3.1 差异表达分析方法

采用 Welch t 检验 （不等方差 t 检验）对三组进行两两比较，该方法不假设两组方差相等，更适用于异质性较强的生物数据。使用 Benjamini-Hochberg (BH) 方法进行多重假设检验的 FDR 校正，以控制假阳性率。

差异基因筛选标准：

∣log⁡2FC∣>1\lvert \log_2\text{FC} \rvert > 1∣log2FC∣>1（即表达量变化超过 2 倍）
FDR<0.05\text{FDR} < 0.05FDR<0.05（统计显著性）

3.2 差异表达分析结果

比较组	上调基因	下调基因	总差异基因
早期 vs 正常	913	1,378	2,291
晚期 vs 正常	959	1,554	2,513
晚期 vs 早期	0	6	6

3.3 结果分析

3.3.1 癌症发生伴随大规模基因表达重塑

早期癌症与正常组织相比已有 2,291 个基因发生显著差异表达（占全部基因的 17.4%），而晚期癌症则增加到 2,513 个（19.1%）。这表明癌症发生初期即伴随大规模的转录组重编程，且随病程进展，异常的基因数量进一步扩大。

3.3.2 癌症早期是基因表达变化的"主战场"

关键发现： 晚期癌症与早期癌症之间仅有 6 个差异基因（且均为下调），远少于正常vs早期或正常vs晚期的差异基因数。这说明：

从正常到早期的转变是基因表达变化的"主战场"，绝大部分表达模式改变在早期已经完成。
早期和晚期癌症在基因表达层面高度相似，这解释了为何临床上难以仅凭分子指标区分早期与晚期。
这也意味着早期诊断具备分子生物学上的可行性------早期癌症已有大量可检测的基因表达异常。

3.3.3 早期特有与晚期特有差异基因

通过 Venn 分析：早期vs正常与晚期vs正常的差异基因中，有 2,174 个共有差异基因 ，117 个早期特有差异基因 ，339 个晚期特有差异基因。早期特有基因可能代表癌症起始的关键驱动事件，晚期特有基因可能涉及侵袭和转移过程。

3.4 TOP 差异基因

早期 vs 正常（前10差异基因）：

排名	基因	log2FC	FDR	变化方向
1	COL10A1	7.19	3.8e-90	↑ 上调
2	CST1	6.49	5.5e-49	↑ 上调
3	COL11A1	6.48	2.2e-66	↑ 上调
4	MMP13	6.25	8.1e-54	↑ 上调
5	MMP11	5.91	1.1e-82	↑ 上调
6	ADH1B	-5.87	3.6e-36	↓ 下调
7	ADIPOQ	-5.57	1.2e-29	↓ 下调
8	GPD1	-5.54	3.7e-37	↓ 下调
9	FABP4	-5.53	7.2e-39	↓ 下调
10	PLIN4	-5.51	8.4e-39	↓ 下调

生物学意义分析：

上调基因： COL10A1、COL11A1、MMP11、MMP13 均为基质金属蛋白酶（MMP）家族或胶原蛋白相关基因，与肿瘤微环境重塑、细胞外基质降解和肿瘤侵袭密切相关。它们在早期即大幅上调，提示肿瘤微环境改变是癌症发生的早期事件。
下调基因： ADH1B（乙醇脱氢酶）、ADIPOQ（脂联素）、FABP4（脂肪酸结合蛋白）、PLIN1/PLIN4（脂滴包被蛋白）均为脂肪代谢和能量代谢相关基因，其下调反映了癌症细胞代谢重编程（Warburg 效应）的特征。

3.5 差异基因间的共表达关系

在全部 2,633 个差异基因中，我们计算了 Spearman 秩相关系数矩阵。发现 20,226 对 基因对存在强相关关系（∣ρ∣>0.8\lvert\rho\rvert > 0.8∣ρ∣>0.8），表明差异基因并非独立运作，而是以协同表达的模块形式共同响应癌症状态。这种协同表达关系为后续构建"基因关系特征"提供了生物学基础。

四、问题2的求解：诊断标记物设计

4.1 特征选择策略

考虑到原始特征空间高达 13,163 维而样本数仅 396 例（高维小样本问题），直接使用全部基因会导致过拟合和计算困难。我们采用 三级筛选 策略：

第一级（候选基因池）： 以差异表达分析筛选出的 2,630 个显著差异基因作为候选集。
第二级（三重特征选择）： 在候选集上并行使用三种互补的特征选择方法：
- LASSO 回归： 通过 L1 正则化自动将不相关特征的系数压缩为零，实现稀疏选择。
- 随机森林重要性排序： 基于决策树的非线性方法，可捕捉基因间的交互效应。
- ANOVA F 值排序： 单变量过滤方法，评估每个基因独立区分组别的能力。
第三级（集成与精简）： 综合三种方法的结果，优先保留被多方认可的基因。

4.2 特征选择结果

三种方法对早期vs正常的TOP10基因如下：

排名	LASSO	随机森林	ANOVA F值
1	COL10A1	ADAMTS5	COL10A1
2	SDPR	COL10A1	MMP11
3	MMP11	MMP11	SDPR
4	LMOD1	IL11RA	SPRY2
5	ADAMTS5	SDPR	PAMR1
6	PAMR1	MAMDC2	ADAMTS5
7	FN1	SPRY2	COL11A1
8	PDE1B	BTNL9	PPP1R12B
9	PROM2	GPRASP1	LMOD1
10	WISP1	TMEM220	PDE2A

三种方法TOP15的交集包含 4 个核心基因：COL10A1、SDPR、MMP11、ADAMTS5。这4个基因可被视为最稳健的标记物基因。

最终确定的 20 个标记物基因集为：

SDPR, ADAMTS5, MMP11, COL10A1, LMOD1, PAMR1, FN1, PDE1B, PROM2, WISP1, LPAR6, ELL3, IRS2, RNF180, TLN2, CPB1, KCNS3, L3MBTL, RAD51, FAT1

这些基因主要涉及细胞外基质重塑、细胞增殖调控、信号转导和代谢调控等癌症相关通路。

4.3 基因关系特征构建

除单个基因的表达值外，我们还构建了基因之间的**表达比值（ratio）**作为"基因关系特征"。对于 kkk 个基因，两两比值可生成 Ck2C_k^2Ck2 个特征。例如，基因 GiG_iGi 与 GjG_jGj 的比值 Rij=Gi/GjR_{ij} = G_i / G_jRij=Gi/Gj 反映了两个基因的相对活性关系，具有以下优势：

比值特征对样本间系统性偏差（如测序深度、RNA质量）具有内在归一化作用。
比值特征可以捕捉基因调控关系的扰动，这种扰动可能比单个基因的表达变化更具诊断价值。

4.4 分类器构建与性能评估

采用 5 折分层交叉验证 评估分类性能，确保正负样本比例在各折中保持一致。评估指标包括：

AUC（ROC 曲线下面积）： 衡量模型整体区分能力
准确率（Accuracy）： 正确分类的样本比例
灵敏度（Sensitivity/Recall）： 正确识别患者的比例
特异性（Specificity）： 正确识别正常人的比例

4.5 核心结果：早期癌症诊断性能

4.5.1 Normal vs Early（核心任务）

模型	特征集	AUC	准确率	灵敏度	特异性
SVM (RBF)	20标记物	1.0000	0.9956	1.0000	0.9900
SVM (RBF)	标记物+比值特征	1.0000	0.9956	1.0000	0.9895
随机森林	20标记物	1.0000	1.0000	1.0000	1.0000
逻辑回归	20标记物	1.0000	0.9957	0.9923	1.0000

所有模型在早期诊断任务中均达到了接近完美的表现。

4.5.2 标记物规模与性能的关系

标记物数量	AUC	准确率
n = 5	1.0000	1.0000
n = 10	1.0000	1.0000
n = 15	1.0000	1.0000
n = 20	1.0000	0.9956

关键发现：仅需 5 个基因即可实现完美的早期癌症诊断。 这5个核心基因为：SDPR、ADAMTS5、MMP11、COL10A1、LMOD1。这极大地降低了潜在的临床检测成本。

4.5.3 完整三组分类

模型	正常 vs 晚期 AUC	早期 vs 晚期 AUC	三分类准确率
SVM (RBF)	0.9991	0.6777	0.6743
随机森林	0.9994	0.6145	0.6642
逻辑回归	0.9994	0.6083	0.6666

重要发现：

正常 vs 晚期 同样可以完美区分（AUC≈1.0），说明晚期癌症与正常组织的基因表达差异极为显著。
早期 vs 晚期 的区分能力显著下降（AUC≈0.68），这与差异分析中仅发现 6 个差异基因的结果相互印证------早期和晚期癌症在基因表达水平上确实高度相似。
三分类准确率约 67%，高于 33% 的随机分类基线，主要受到早期/晚期混淆的限制。

4.6 推荐的早期癌症诊断标记物方案

基于分析结果，我们推荐以下诊断标记物方案：

核心方案（5基因）： SDPR、ADAMTS5、MMP11、COL10A1、LMOD1

扩展方案（10基因）： 核心方案 + PAMR1、FN1、PDE1B、PROM2、WISP1

诊断流程：

采集疑似患者的肿瘤组织样本
检测 5-10 个标记物基因的表达水平（RT-qPCR 或 RNA-seq）
将表达值输入训练好的 SVM/随机森林分类器
输出病理状态判定（正常 / 早期癌症 / 晚期癌症）
以正常vs癌症（早期+晚期）的 AUC ≥ 0.999 的置信度辅助临床决策

五、问题3的求解：消除异质性的影响

5.1 异质性量化

通过计算各组内基因表达值的变异系数（CV = 标准差/均值），量化了组内异质性：

分组	CV 中位数
正常	0.052
早期	0.073
晚期	0.077

癌症组（尤其是晚期）的组内变异系数显著高于正常组，说明癌症患者之间确实存在更大的异质性。这与肿瘤的分子分型多样性、个体遗传背景差异、微环境差异等因素相符。

5.2 异质性对标记物选择的影响

引入**信噪比（SNR）**指标：

SNRi=σbetween(gi)σwithin(gi)\text{SNR}i = \frac{\sigma{\text{between}}(g_i)}{\sigma_{\text{within}}(g_i)}SNRi=σwithin(gi)σbetween(gi)

其中 σbetween\sigma_{\text{between}}σbetween 为组间标准差（三组均值之间的差异），σwithin\sigma_{\text{within}}σwithin 为组内标准差的平均值。

在全基因组中，仅有 4 个基因的信噪比超过 2，没有任何基因的信噪比超过 5。这表明几乎每个基因都面临"组间差异被组内异质性淹没"的问题。

我们构建的标记物基因集信噪比中位数为 1.171，虽然水平不算高，但机器学习模型通过多维特征的组合效应，能够在异质性存在的情况下仍然实现高精度分类。这是机器学习方法相比传统单变量统计检验的重要优势。

5.3 异质性处理策略比较

对 Normal vs Early 分类任务，比较了四种数据处理策略：

策略	方法	AUC	准确率
策略1	原始表达值	1.0000	0.9956
策略2	Z-score 标准化	1.0000	0.9956
策略3	Rank 百分位变换	1.0000	0.9912
策略4	Log 变换	1.0000	0.9956

分析： 各种标准化策略均保持了极高的分类性能，表明标记物基因的辨别能力是稳健的。特别地，Rank 变换将绝对值转换为秩次，彻底消除了单个样本内部的量纲差异------这是一种最彻底的消除样本间技术异质性的方法。虽然 Rank 变换的准确率略有下降（0.9912），但其优势在于完全不受异常值和批次效应影响。

5.4 鲁棒标记物推荐

为同时兼顾"区分能力"和"抗异质性"，我们将信噪比和组内变异系数结合为鲁棒评分：

RobustScorei=SNRiCVnormal,i+CVearly,i+CVlate,i\text{RobustScore}i = \frac{\text{SNR}i}{\text{CV}{\text{normal},i} + \text{CV}{\text{early},i} + \text{CV}_{\text{late},i}}RobustScorei=CVnormal,i+CVearly,i+CVlate,iSNRi

选出的前 10 个鲁棒标记物为：

排名	基因	鲁棒评分	功能
1	HNRNPU	19.75	RNA 结合蛋白
2	HNRNPK	19.54	转录调控
3	EIF2AK1	18.91	翻译起始调控
4	SFRS1	17.56	RNA 剪接因子
5	HNRNPL	16.08	RNA 结合蛋白
6	ELAVL1	15.82	mRNA 稳定性调控
7	H2AFY	15.46	染色质结构
8	PTBP1	15.12	RNA 剪接调控
9	HNRNPA2B1	14.50	RNA 结合蛋白
10	HNRNPC	14.25	RNA 加工

这些基因以HNRNP（异质核糖核蛋白）家族 和RNA 加工调控因子为主，其特点是在各组内表达稳定（低 CV），但组间存在持续差异（相对高 SNR）。这些基因可作为临床检测中更为稳健的辅助标记物，尤其适用于异质性较大的真实临床样本。

5.5 应对异质性的综合策略

基于上述分析，提出以下系统性应对异质性的策略：

数据层面： 采用 Rank 变换或分位数归一化消除技术偏差；必要时使用 ComBat 等方法校正已知批次效应。
特征层面： 优先选择高信噪比 + 低组内变异（高鲁棒评分）的基因；构建比值型特征实现样本内归一化。
模型层面： 使用交叉验证确保泛化能力，避免过拟合到特定患者亚群；考虑集成学习提高鲁棒性。
应用层面： 对于临床检测，建议使用 5-10 个标记物基因的组合而非单一基因，以冗余设计抵抗个体差异。

六、模型评价与讨论

6.1 方法优势

多方法特征选择： 集成 LASSO（线性稀疏）、随机森林（非线性交互）、ANOVA（单变量统计）三种互补方法，避免了单一选择方法的偏差。
精简的标记物集合： 仅 5 个基因即可实现完美早期诊断，考虑了临床检测的实际成本约束。
基因关系特征： 引入表达比值特征，捕捉了基因调控网络层面的信息，增强了模型的生物学可解释性。
异质性针对性处理： 量化了异质性程度，提出了鲁棒标记物的筛选框架。

6.2 关键生物学发现

癌症基因表达重编程主要发生在早期： 早期癌症已表现出大规模的基因表达异常，而早期到晚期仅有微小的进一步变化（仅 6 个差异基因）。这为"早期诊断窗口"的存在提供了分子层面的证据。
细胞外基质重塑和代谢重编程是早期核心事件： COL10A1、MMP11 等上调基因和 ADIPOQ、FABP4 等下调基因分别指向"微环境重塑"和"Warburg 效应"两个癌症标志性特征在早期即已启动。
RNA 加工因子是稳健标记物的富集通路： HNRNP 家族等 RNA 结合蛋白在异质性分析中表现出色，提示 RNA 加工层面的异常可能是癌症中相对稳定的分子特征。

6.3 局限性与展望

数据来自单一癌种（乳腺癌 TCGA），标记物在其他癌种中的普适性需进一步验证。
缺乏独立的外部验证数据集，模型的泛化能力需要更大规模的多中心队列验证。
早期和晚期的分类尚不够理想（AUC≈0.68），可能需要整合临床分期信息或多组学数据（如甲基化、蛋白质组）加以改善。
建议后续研究中引入单细胞测序数据，以区分肿瘤细胞与微环境细胞的表达贡献，更精确地定位标记物。

七、结论

本文通过对 TCGA 乳腺癌基因表达数据的系统分析，完成了癌症早期诊断标记物设计的全部三个任务：

差异基因分析揭示：早期 vs 正常（2,291 DEGs）、晚期 vs 正常（2,513 DEGs）、早期 vs 晚期（仅 6 DEGs），表明基因表达重编程主要发生在癌症早期阶段。
诊断标记物设计 得到仅需 5 个核心基因（SDPR、ADAMTS5、MMP11、COL10A1、LMOD1） 即可在交叉验证中实现近 100% 的早期诊断准确率，同时提供了基因关系特征作为补充定量指标。
异质性分析提出了信噪比 + 组内变异的鲁棒评分框架，识别出 HNRNP 家族等稳健标记物，并验证了 Rank 变换等策略有效缓解异质性影响。

本研究为基于基因表达数据的癌症早期诊断提供了完整的分析方法和可操作的标记物方案，具有转化为临床检测 panel 的潜力。

参考文献

$1$ Love MI, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, 2014.

$2$ Tibshirani R. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B, 1996.

$3$ Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics, 2008.

$4$ Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B, 1995.

$5$ Hoadley KA, et al. Cell-of-origin patterns dominate the molecular classification of 10,000 tumors from 33 types of cancer. Cell, 2018.

$6$ Hanahan D, Weinberg RA. Hallmarks of cancer: the next generation. Cell, 2011.

附录：核心代码说明

A.1 差异表达分析

使用 Welch t 检验 + BH-FDR 校正，筛选标准：∣log⁡2FC∣>1|\log_2\text{FC}| > 1∣log2FC∣>1 且 FDR < 0.05。

A.2 特征选择与分类

LASSO：LogisticRegressionCV（L1 惩罚，5 折交叉验证选参）
随机森林：RandomForestClassifier（500 棵树，深度限制为 10）
ANOVA：SelectKBest(f_classif, k=30)
分类器评估：StratifiedKFold(5) 交叉验证

A.3 软件环境

Python 3, scikit-learn, numpy, pandas, scipy, statsmodels
完整代码见附件 analysis_part1.py 和 analysis_part2.py