统计学基础之概率（生物信息方向）

前言

概率论是数学中一个核心的分支，广泛应用于各个领域，尤其是在生物信息学中，它为数据分析提供了强大的理论基础。生物信息学中的数据通常包含大量的随机性，例如基因突变、基因表达、疾病发生等，这些现象都可以用概率模型进行描述。理解概率及其分布特性，对于进行科学推断和数据分析至关重要。本章将从概率的基本概念 到概率分布的应用，全面阐述概率在生物信息学中的应用，帮助读者理解如何运用概率理论分析和解释生物数据。

一. 概率的三种解释

古典解释

假设我们有一组基因突变的样本，并且假设每个基因突变是独立且等可能发生的。比如，在全基因组关联研究（GWAS）中，假设每个基因突变发生的概率相等，并且每个基因都是独立的，可以使用古典概率来估计某一特定基因突变的发生概率。

数学形式：

A为事件A成功的次数，N为所有可能事件的总数

在生物学实验中，若我们有一个基因突变事件，该事件有两种可能的结果（突变或未突变），且两者概率相等，可以用古典概率来描述。

频率解释

在癌症基因组学中，我们可能会通过统计大量癌症患者样本中某种突变的频率来推测该突变在总体人群中的概率。例如，某种特定的p53基因突变在1000名癌症患者中发生了50次，那么它在该癌症类型中的发生频率大约是 50/1000=0.0550/1000 = 0.0550/1000=0.05。

数学形式：

其中，n(A) 是事件 A发生的次数，N 是总实验次数。

贝叶斯解释

在生物信息学中，贝叶斯方法广泛应用于基因组学研究，特别是在基因突变的预测中。例如，基于已有的基因数据和实验信息（先验概率），我们可以通过贝叶斯定理更新对某个基因突变可能性（后验概率）的判断。在单细胞转录组分析中，贝叶斯推断方法用于推测细胞的亚群分布、推断基因的表达模式等。

数学公式：

我们来分析每个组成部分：

先验概率P(C)：这是在我们观察到任何证据 M之前，对事件C概率的初始信念。它反映了先前的知识或假定。

边际概率P(M): 无论假设是否成立，观测到数据的总体概率。它充当一个归一化常数，确保所得的后验概率

似然P(M∣C): 这是在事件 C为真的情况下，观察到事件 M 的概率。

后验概率P(C∣M): 这是事件 C 在我们观察到事件 M 之后发生的概率。它代表我们对 B 的更新后的信念。这通常是我们想要计算的。

举一个例子：基因突变与癌症风险

很多人会说：

"这个基因突变会导致癌症的概率是 70%"

但实际在文献中，你往往看到的是：

P(突变∣癌症) ：癌症中这个基因突变的概率

而你真正想要的是：
P(癌症∣突变) ：突变发生的情况下患癌的概率

这两个不是一回事， 贝叶斯的价值，就在于在这两种概率之间做严谨转换。

例如：我们先把问题"翻译成概率语言"。

事件 M：某个基因发生突变
事件 C：患某种癌症（如肺癌、乳腺癌）

我们想要的是：P(C∣M) 既基因发生突变之后患癌的概率

想要计算P(C|M），就需要知道P(M|C)(癌症人群之中改基因突变的概率)，P(M)（人群中该基因突变的概率）和P(C) （人群中患该种癌症的概率）

P(M∣C)：癌症人群中该突变的比例 ，这是我们最容易从数据中得到的量：

TCGA、ICGC
肿瘤队列测序

例：在肺癌患者中，30% 带有 EGFR 突变。所以P(M∣C)=0.3。

P(C)：普通人群中癌症的发生率（先验） ，这是人群背景风险：

某癌症年发病率：1%
或终生风险：5%

例：P(C)=0.01

这是贝叶斯中的"先验"。

P(M)：普通人群中该突变的比例，包括：

胚系突变频率
体细胞突变在非癌组织中的概率

例：P(M)=0.05

计算

因此携带该基因突变的人，患该癌症的概率是 6%，相比于正常人的1%，可以计算相对风险（Risk Ratio）

即携带该突变的人，患癌风险是普通人的 6 倍

实际上，上述突变率例子只是贝叶斯应用的最简化版本。在真实生物信息学分析中，突变率通常不是一个固定值，而是一个区间或分布，每个位点、样本甚至细胞的概率可能不同，同时测序深度、测序错误率、PCR 偏倚、肿瘤异质性等因素都会带来噪声。贝叶斯方法通过先验分布反映我们对生物过程的初步认知，再结合观测数据不断更新，形成后验分布，从而量化所有层面的不确定性，并给出最合理的估计与可信区间。这一方法还可以扩展到多参数、多层级、多条件的场景，如基因组突变谱、多基因组合、不同组织或临床特征，使我们在复杂噪声环境下仍能科学地评估概率和风险。

二、随机变量

在概率理论中，样本空间刻画的是所有可能结果的集合，事件则是这些结果的不同子集 ，但在实际分析中，研究者往往并不关心某一次实验究竟对应样本空间中的哪一个具体结果，而更关心由该结果所派生出的可量化信息。随机变量正是在这一背景下引入的概念，它本质上是一个函数，用来将样本空间中的随机结果映射为数值，从而把"事件是否发生"转化为"数值取多少"。通过随机变量，我们可以用统一的数学语言来描述突变是否出现、突变次数、基因表达量等生物信息学中常见的数据类型，并进一步讨论这些数值的概率分布、期望和不确定性，这也为后续的统计建模和贝叶斯推断奠定了基础。

随机变量 X是一个函数，把实验结果映射到数值：

X:Ω→R

Ω是实验空间，例如"一个人是否患癌症"
X可以把"是否患癌"映射为 0/1；R是实数集

离散型随机变量与连续型随机变量

在概率论中，根据随机变量可能取值的性质不同，通常将随机变量分为离散型 和连续型两大类。这一区分在生物信息学中尤为重要，因为不同类型的数据需要采用不同的概率模型和统计方法。

离散型变量

定义与数学特征：离散型随机变量是指其取值是有限个或可数无限个的随机变量，通常表现为一个个彼此分离的数值点。

数学上，用**概率质量函数（PMF）**描述其分布：

并满足：（所有可能取值的概率之和必须等于 1）

生物信息学中的典型例子

是否发生突变

X={1,发生突变0,未发生突变} 1, & \text{发生突变}

这是最简单的离散随机变量（Bernoulli 型）。
突变 reads 数

X=0,1,2,...,n

常用二项分布或泊松分布建模。
RNA-seq 中某基因的 reads 数或 UMI 数

典型离散计数数据，常用负二项分布描述。

离散型随机变量关注的是"数得出来的东西"，例如：

有几条 reads 支持突变
有多少个细胞属于某一类型

在离散情形下，"取某一个具体值"的概率是有意义的。

连续型变量

定义与数学特征：连续型随机变量是指其取值可以落在某个区间内的任意实数，取值是不可数无限的。

连续型随机变量用**概率密度函数（PDF）**描述：

并满足：（曲线下的总面积必须等于 1）

需要注意的是：

P(X=x)=0

也就是说，连续型随机变量不存在"恰好取某一个值"的概率，只能讨论"落在某个区间内"的概率。

生物信息学中的典型例子

基因表达量（如 TPM、FPKM、log(TPM)）

通常视为连续变量，常用正态或对数正态分布建模。
突变率或等位基因频率（VAF）

取值在 $0,1$ 区间，常用 Beta 分布建模。
通路活性评分、富集得分

常被视为连续随机变量。

连续型随机变量关注的是"测量得到的量"，例如：

表达量高低
突变频率大小

我们更关心其区间范围，而不是某一个精确数值。

离散型和连续型随机变量的区别，实质上反映了数据生成机制的不同。在生物信息学中，测序读段、突变次数等天然是离散的，而表达量、突变率等则更适合用连续变量来刻画。明确这一点，是正确选择概率分布、理解贝叶斯模型以及进行后续统计推断的基础。

三、随机变量的分布（概率分布）

到目前为止，你已经知道：

随机变量是什么
有离散型和连续型之分

但随机变量本身并不能直接用来做推断。真正决定数据行为的是：

随机变量"以什么样的概率方式取值"

也就是它的概率分布。

在生物信息学中，几乎所有模型都可以归结为一句话：

"某个随机变量服从某种分布。"

和随机变量一样，概率分布也是分为离散分布和连续分布

离散分布

在前面我们已经介绍了离散型随机变量的概念，但仅仅知道"变量是离散的"还不够。在实际分析中，更关键的问题是：这些离散数值是以什么样的概率规律产生的。这种规律，正是由概率分布来刻画的。

在生物信息学中，大量原始数据本质上都是离散计数数据，例如突变是否发生、突变 reads 数、RNA-seq 的 reads 或 UMI 数等。因此，理解常见的离散概率分布，是后续统计建模和贝叶斯推断的基础。

Bernoulli 分布：：最简单的离散模型

定义：Bernoulli 分布描述的是只有两种可能结果的随机变量，通常记为 0 和 1。

设随机变量 X：

X={1,事件发生；0,事件不发生}

其概率质量函数（PMF）为： P(X=1)=p,P(X=0)=1−p

其中 p∈ $0,1$

生物信息学例子

某个位点是否发生突变（是/否）
某个样本是否患某种癌症
单个细胞是否属于某一细胞类型

例如，在癌症研究中，可以定义：X={1,该个体患癌；0,该个体未患癌} ，此时，p就表示该人群中患癌的概率。

二项分布（Binomial）：多次 Bernoulli 的累积

二项分布描述的是：在 n次相互独立、成功概率相同为 p的 Bernoulli 试验中，成功发生的次数。

设随机变量 X表示成功次数，则：X∼Binomial(n,p)

其概率质量函数（PMF）为： k = 0,1,...n

生物信息学例子:突变 reads 数建模

某个位点总共有 n条测序 reads
每条 read 有概率 p 来自突变等位基因
设 X为观察到的突变 reads 数

则：X∼Binomial(n,p)

这正是许多体细胞突变检测方法的基础模型。

例如：在癌症研究中，患某种癌症的概率是1%，那么在100（n=100）人中检查，有5个人患这种癌的概率就是P（X=5）=

泊松分布（Poisson）：稀有事件的计数模型

定义：泊松分布用于描述在单位时间或单位区域内，某种稀有事件发生的次数；

X∼Poisson(λ)

其概率质量函数(PMF)为：

其中 λ 表示单位尺度下的平均发生次数。

一般认为：泊松分布二项分布在"事件极稀有、试验次数极多"条件下的极限形式

生物信息学例子

某基因在低表达条件下的 reads 数
某个基因组区段内的突变数
稀有转录本的检测次数

例如，在 RNA-seq 中，当基因表达水平很低时，reads 数常被近似建模为泊松分布。

泊松分布的核心假设是：

这在"稀有突变"或"低表达基因"场景中非常合理。

负二项分布（Negative Binomial）：处理过度离散

为什么需要负二项分布？在实际 RNA-seq 数据中，经常发现：

方差明显大于均值

这违反了泊松分布"均值等于方差"的假设。

定义（直观形式）负二项分布可以看作是泊松分布的扩展，允许更大的方差：

X∼NB(r , p)

或用均值 μ和离散度参数描述。

生物信息学中的核心应用

RNA-seq 差异表达分析
单细胞 UMI 计数

DESeq2、edgeR 等主流工具，本质上都是在使用负二项分布对 reads 数建模。

离散分布的整体理解

可以将上述分布理解为一个递进关系：

Bernoulli：一次是否发生
Binomial：多次是否发生的累计
Poisson：稀有事件的次数
Negative Binomial：带有额外生物变异的计数模型

它们共同构成了生物信息学中离散数据建模的核心工具箱。

连续分布

在前面我们讨论的离散分布中，随机变量取值是可数的整数，例如：

突变 reads 数（0,1,2,...）
某个事件发生的次数

然而，在生物信息学中，还有大量无法用整数精确刻画的量，例如：

基因表达量（TPM、FPKM）
突变等位基因频率（VAF）
突变率、转录速率
测量误差、归一化后的表达值

这些变量的共同特点是：

它们在一个区间内可以取任意实数值

这类随机变量称为连续型随机变量。

以突变率为例：

单条 read 是否突变 → Bernoulli（离散）
多条 reads 的突变数 → Binomial / Poisson（离散）
真实突变率本身 → 连续变量

也就是说：

"参数"往往是连续的，而"观测数据"往往是离散的

这正是连续分布在统计建模中的核心地位。

最重要的连续分布一：正态分布（Normal）

数学定义：

概率密度函数：

参数的直观含义

μ：均值，分布中心
σ2：方差，离散程度

生物信息学中的应用

log(TPM)、log(CPM) 的近似分布
批次校正后的表达残差
技术噪声模型
微小误差的累积效应（中心极限定理）

为什么正态分布如此重要？

因为：

大量独立小效应之和，趋向正态分布

这正是中心极限定理的内容，也是测量误差、表达噪声建模的理论基础。

Gamma 分布：正偏连续变量的核心模型

定义：X∼Gamma(α,β)

PDF ：

Gamma 分布适合描述：非负; 右偏; 连续的随机变量。

典型应用

基因表达强度
转0录速率
泊松分布参数 λ的先验（Gamma--Poisson 模型）

Beta 分布：概率本身的分布

定义: X∼Beta(α, β)；支持区间：

PDF ：

因为它用于描述：

"概率或比例的不确定性"

生物信息学中的典型例子

突变等位基因频率（VAF）
突变率
甲基化比例
某基因在群体中的表达比例

与贝叶斯的天然联系

Binomial + Beta → 共轭更新
Poisson + Gamma → 共轭更新

这是现代生信工具的统计内核。

指数分布：等待时间模型

定义:X ∼ Exponential(λ)

PDF :

生信应用

等待下一个突变出现的时间
RNA 降解时间
突变间距模型

连续型概率分布为生物信息学中对表达量、突变率和不确定参数的建模提供了统一框架，它们往往描述的不是"观测次数"，而是"产生这些观测的潜在机制"。

至此，我们已经系统梳理了概率论在统计学与生物信息学中的核心基础框架。从概率的三种解释出发，明确了不确定性在科研中的不同理解方式；继而引入随机变量这一核心抽象工具，将实验结果与可计算的数值量联系起来；在此基础上，区分并详细讨论了离散型与连续型随机变量及其常见概率分布，建立了从"数据生成机制"到"数学模型"的基本对应关系。

需要强调的是，这一部分内容构成的是统计建模与推断的语言层和工具层。无论是测序错误建模、突变检测、差异表达分析，还是后续的贝叶斯推断与机器学习方法，本质上都离不开对随机变量及其分布的合理假设与理解。到这里为止，我们已经具备了阅读和理解主流生物信息学方法中统计模型的必要前置知识。

在接下来的内容中，将不再停留在概念与公式层面，而是以具体分析任务为主线，结合真实的生物信息学数据与工具，系统讲解这些概率模型在实际分析中的使用方式与设计原理，包括为什么要这样建模、模型假设是否合理、以及不同方法之间的统计思想差异。通过"从问题出发、回到模型本质"的方式，逐步把这些基础知识转化为可操作、可解释的分析能力。