机器学习:连接生物数据与生物规律的核心工具
在高通量测序技术快速发展的今天,生物信息学已经进入了一个"数据驱动"的时代。无论是转录组、单细胞转录组、基因组、表观组,还是宏基因组和多组学整合分析,研究者面对的已不再是少量变量,而是高维、异质、强噪声且高度相关的复杂数据体系。传统的统计方法在解释性和计算效率方面仍然重要,但在模式识别、非线性建模和复杂系统推断方面,已逐渐显现出局限性。
正是在这一背景下,机器学习(Machine Learning, ML)成为生物信息学研究中不可或缺的核心方法体系。
一、什么是机器学习
从本质上讲,机器学习是一类让计算机从数据中自动学习规律,并基于这些规律进行预测、分类或决策的方法集合。与传统"规则驱动"的编程方式不同,机器学习并不依赖人为显式编写判断规则,而是通过数据训练模型,使其在未知样本上具备泛化能力。
在生物信息学中,这意味着:
- 不再人为设定"某个基因高表达即为关键基因"
- 而是让模型从成千上万基因的联合变化中学习疾病状态、细胞类型或功能模块的判别模式
简而言之:
统计学回答"是否显著",机器学习回答"能否预测"。
二、机器学习的核心组成要素
一个完整的机器学习问题,通常由以下几个关键要素构成:
1. 数据(Data)
数据是机器学习的基础。在生物信息学中,常见的数据形式包括:
- 基因表达矩阵(bulk RNA-seq、scRNA-seq)
- 突变特征(SNV、CNV、SV)
- 表观修饰信号(ATAC-seq、ChIP-seq、甲基化)
- 蛋白互作网络、通路活性得分
- 临床表型、生存信息、多模态数据
这些数据普遍具有高维度(p ≫ n)、共线性强、缺失值多等特点,对算法设计和特征工程提出了更高要求。
2. 特征(Features)
特征是模型理解数据的"语言"。在生物信息学中,特征既可以是:
- 单个基因或基因集的表达量
- 细胞通讯强度、通路活性评分
- 变异频率、拷贝数状态
- 网络拓扑参数(中心性、模块性)
特征构建往往比模型选择更重要。一个生物学合理、信息密度高的特征空间,往往可以显著提升模型性能与可解释性。
3. 模型(Models)
模型是机器学习的数学核心。根据任务目标和学习方式,常见模型包括:
- 线性模型(线性回归、Logistic 回归)
- 树模型(随机森林、XGBoost、LightGBM)
- 支持向量机(SVM)
- 神经网络与深度学习模型
- 图模型与图神经网络(GNN)
在生物信息领域,模型复杂度与样本规模之间的平衡尤为关键,过拟合是最常见、也是最危险的问题之一。
4. 学习过程(Training & Validation)
机器学习并非"一次拟合",而是一个完整流程:
- 训练集 / 验证集 / 测试集划分
- 交叉验证(Cross-validation)
- 超参数优化
- 性能评估(AUC、Accuracy、Recall、RMSE 等)
在生物医学研究中,独立队列验证往往比模型指标本身更具说服力。
5. 解释与泛化(Interpretability & Generalization)
生物信息学并不满足于"预测准确",更关注:
- 哪些基因或通路在驱动模型决策?
- 这些特征是否符合已知生物学机制?
- 模型是否在不同队列、不同平台上稳定?
因此,特征重要性分析、SHAP、LIME 以及模型可解释性方法,在生物信息机器学习中具有核心地位。
三、机器学习的主要类别
从学习方式上,机器学习通常分为以下几类:
1. 监督学习(Supervised Learning)
模型在已知标签的数据上进行训练,常用于:
- 疾病/正常分类
- 肿瘤分型
- 细胞类型注释
- 预后预测、生存分析
这是生物信息学中应用最广泛的机器学习形式。
2. 无监督学习(Unsupervised Learning)
在无标签数据中发现结构和模式,例如:
- 聚类(细胞亚群、分子亚型)
- 降维(PCA、UMAP、t-SNE)
- 模块识别、网络结构解析
单细胞转录组分析本质上高度依赖无监督学习。
3. 半监督与弱监督学习
在真实生物数据中,标签往往不完整、不准确:
- 部分样本有明确诊断,其余样本无标签
- 细胞注释存在噪声
半监督学习在此类场景中具有显著优势。
4. 深度学习(Deep Learning)
深度学习是机器学习的一个子集,擅长处理:
- 超高维数据
- 非线性关系
- 原始信号(序列、图像、结构)
在序列建模(DNA/RNA)、空间转录组、蛋白结构预测中展现出巨大潜力,但对数据规模和计算资源要求较高。
四、机器学习常见算法
在生物信息学中,机器学习任务主要集中在三大类:分类、聚类、回归。这三类任务分别用于疾病预测、细胞分群、表达量建模、分子亚型识别、基因特征筛选等分析场景,是多组学分析体系中的核心方法。
一、分类算法(Classification)
1. 定义
分类属于监督学习。其核心目标是构建一套能将输入样本映射为离散类别标签的预测模型。例如,将肿瘤样本分为"肿瘤 vs 正常",将细胞分为不同类型或亚群。
模型首先在有标签的数据上学习分类规则,然后对未知样本进行类别预测。
2. 分类任务在生物信息学中的主要应用
- 疾病分类和诊断模型
如区分肿瘤与正常组织、炎症状态 vs 非炎症状态。 - 细胞类型注释(Single-cell)
如将 scRNA-seq 数据中的细胞自动分类到 B cell、T cell、Fibroblast 等类型。 - 分子亚型预测
在癌症研究中,使用基因表达矩阵识别 Luminal、Basal-like 等亚型。 - 驱动基因或关键基因筛选
通过特征重要性或模型权重识别潜在的功能基因。
3. 分类算法实例(适用于生物数据)
| 算法 | 特点 | 在生物信息学中的典型应用 |
|---|---|---|
| 决策树 / 随机森林 | 非线性、可解释性强 | 挖掘关键基因、建立诊断模型 |
| 支持向量机(SVM) | 适用于高维小样本 | 小队列 RNA-seq 的疾病分类 |
| K 最近邻(KNN) | 简单稳健、基于相似度 | scRNA-seq 的细胞类型预测 |
| 贝叶斯网络 | 概率推断能力强 | 基因调控网络建模 |
| 神经网络 / 深度学习 | 非线性极强、表达力高 | 单细胞注释、多组学融合预测、图模型 |
4. 分类的两类任务
- 预测型分类:对未知样本进行预测(如预测肿瘤是否复发)
- 描述型分类:解释数据特征(如根据表达模式标注细胞类型)
二、聚类算法(Clustering)
1. 定义
聚类属于无监督学习。不需要标签,通过数据本身的结构和相似度将其自动划分为不同簇群。
聚类不关心类别名称,而是根据相似性自动形成类簇。
2. 聚类在生物信息学中的典型应用
- 单细胞 RNA-seq 的细胞亚群识别
如划分为 T cell、B cell、Monocyte 等。 - 肿瘤分子亚型发现
如通过表达矩阵自动识别 Basal-like、Mesenchymal 等亚型。 - 基因共表达模块识别
用于构建聚类模块(如 WGCNA)识别协同表达基因。 - 微生物群落结构分析
依据 OTU/ASV 特征发现微生物生态组群。
3. 聚类流程(针对生物数据优化)
- 特征选择
如 HVGs(高度变异基因)、基因集得分、通路活动度。 - 相似度度量
常用欧氏距离、相关系数、余弦相似度等,适应不同数据结构。 - 聚类算法执行
- 评估与迭代
使用 Silhouette、Calinski-Harabasz 等指标,或结合生物学注释迭代优化。
4. 聚类算法分类(及其在生物信息学中的适用性)
(1)基于层次的聚类(Hierarchical Clustering)
- 常用于热图聚类、样本聚类
- 适用于多组学整合、表达矩阵层次结构分析
- 代表:BIRCH、CURE
(2)基于划分的聚类(k-means、PAM 等)
- 多用于基因表达模式分型
- k-means 常用于基因表达趋势分群(如 time-course analysis)
(3)基于密度的聚类(DBSCAN、OPTICS)
- 擅长识别任意形状的簇
- 能处理噪声、生物数据的高变异性
- 在空间转录组和单细胞亚群挖掘中有良好表现
(4)基于图结构的聚类(Louvain、Leiden)
- 单细胞分析中最常用的方法
- 基于 KNN 图构建社区结构,是 scRNA-seq 聚类的标准方法
三、回归分析(Regression)
回归用于预测连续型变量,并研究自变量与因变量间的关系,在生物信息中有重要但相对隐性的作用。
1. 生物信息学中的回归应用示例
- 基因表达量建模:用临床指标或环境因素预测表达变化
- 转录因子活性推断:如 SCENIC 中使用回归评估调控强度
- 生存预测(Cox 回归):分析基因表达与预后之间的关系
- 甲基化/ATAC-seq 强度预测:建模染色质开放程度变化
- 基因间依赖关系建模(如抑制、促进效应)
2. 回归方法类型(结合生物学场景说明)
(1)单变量线性回归
用于研究某个基因表达是否与某个表型(如肿瘤大小)呈线性相关。
(2)多变量线性回归
常用于多基因联合建模,如建立多基因风险评分(Gene Signature)。
(3)非线性回归
适用于复杂调控关系,如激素剂量-反应曲线、酶动力学等。
(4)泊松回归
适用于计数数据,如:
- 突变计数(SNV count)
- 染色质峰数(ATAC-seq Peak Count)
- 细胞计数数据
(5)Cox 回归(生物信息学中特别重要)
用于:
- 构建生存风险模型(Risk Score)
- 筛选与预后显著相关的基因
- 回归模型评估指标
生物数据常用的指标包括:
- MSE、RMSE、MAE
- R²
- 偏差-方差权衡
- 对生存模型:C-index、时间依赖 AUC
并采用:
- 交叉验证提升可靠性
- **正则化(Lasso、Ridge、Elastic Net)**防止高维数据过拟合
- 特征选择提升生物学解释性
总结
- 分类用于疾病诊断、细胞注释、分子亚型预测
- 聚类用于亚群发现、模块识别、微生物组分析、单细胞分群
- 回归用于建模表达量、风险预测、生物机制推断
三类方法共同构成了现代生物信息学中数据驱动研究的核心技术体系。
五、为什么生物信息学需要机器学习
生物系统本身具有以下特点:
- 非线性
- 多尺度
- 高度冗余但信息稀疏
- 噪声与真实信号共存
机器学习提供了一种从复杂数据中抽象生物规律的工程化手段,使我们能够:
- 从"描述现象"迈向"预测机制"
- 从单变量分析走向系统层面建模
- 将数据分析转化为可复用、可验证的模型
六、本专栏将涵盖的内容
本专栏将围绕生物信息学中的机器学习实践展开,重点包括:
- 机器学习基础概念与常见误区
- 不同算法在转录组与单细胞数据中的适用场景
- 特征工程与生物学先验的融合
- 模型评估、过拟合与批次效应
- 机器学习结果的生物学解释
- 真实科研场景中的完整分析流程
目标不是"算法堆砌",而是建立一套可落地、可解释、可复现的生物信息机器学习分析框架。