AI小白的第七天：必要的数学知识（四）

概率 Probability

1. 概率的定义

概率是一个介于 0 和 1 之间的数，表示某个事件发生的可能性：

0：事件不可能发生。
1：事件必然发生。
0 到 1 之间：事件发生的可能性大小。

例如，掷一枚公平的硬币，正面朝上的概率是 0.5。

2. 概率的计算

（1）频率学派

抛一万次硬币，看硬币正面向上的概率。
P n ( x ) = n x n P_n(x)=\frac{n_x}{n} Pn(x)=nnx

x x x代表证明朝上；
n n n为实验总数;
n x n_x nx为实验过程中发生x的次数。

这种方式，实验成本高，且误差不可控，概率始终是个近似值。

（2）古典学派

样本空间中，每个结果发生的可能性相等，则事件A的概率为：
P ( A ) = ∣ A ∣ ∣ S ∣ P(A)=\frac{|A|}{|S|} P(A)=∣S∣∣A∣

其中|A|是事件A的结果数
|S|是样本空间的结果数

（3）贝叶斯学派

P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)

P(A）表示事件A发生的概率，称为先验（prior）概率；
P(B)表示事件B发生的概率，称为标准化常量或者证据（evidence）；
P（B|A）表示在事件A发生的条件下，事件B发生的概率，通常称之为可能性或者似然（likelihood）；
P（A|B）表示在事件B发生的条件下，事件A发生的概率，也称为后验（posterior），也就是表示了事件发生了，并且它属于某一类别的概率；

最大似然估计 Maximum Likelihood Estimation, MLE

1. 基本概念

参数估计：在统计学中，我们通常假设数据服从某个概率分布（如正态分布、泊松分布等），而分布的参数（如均值、方差）需要通过数据来估计。
似然函数：给定一组参数，似然函数描述了观测数据在该参数下出现的概率。
最大似然估计：通过最大化似然函数，找到最可能生成观测数据的参数值。

θ ^ = a r g m a x P ( X ∣ θ ) \hat \theta =argmaxP(X|\theta) θ^=argmaxP(X∣θ)

θ ^ \hat \theta θ^ 是最优参数
a r g m a x argmax argmax表示求使得 P ( X ∣ θ ) P(X|\theta) P(X∣θ)最大化的参数值。

2. 似然函数的定义

假设观测数据为 X = x 1 , x 2 , . . . , x 3 X={x_1,x_2,...,x_3} X=x1,x2,...,x3,且数据服从某个概率分布 P ( X ∣ θ ) P(X|\theta) P(X∣θ)，其中 θ \theta θ是分布的参数。似然函数定义为

L ( θ ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta)=P(X|\theta)=\prod_{i=1}^n P(x_i|\theta) L(θ)=P(X∣θ)=i=1∏nP(xi∣θ)

3. 最大似然估计的步骤

（1）写出似然函数

根据数据分布假设，写出似然函数 L ( θ ) L(θ) L(θ)。

（2）取对数似然函数

为了简化计算，通常对似然函数取对数，得到对数似然函数：
ln ⁡ L ( θ ) = ∑ i = 1 n ln ⁡ P ( x i ∣ θ ) \ln L(\theta) = \sum_{i=1}^n \ln P(x_i|\theta) lnL(θ)=i=1∑nlnP(xi∣θ)

（3）取对数似然函数

对对数似然函数关于参数 θ θ θ 求导，并令导数为零，求解使似然函数最大的参数值：
d d θ ln ⁡ L ( θ ) = 0 \frac{d}{d\theta}\ln L(\theta) =0 dθdlnL(θ)=0

（4）求解参数

解上述方程，得到参数的估计值 θ ^ \hat \theta θ^。

关于"最大似然值估计"，我明白它干的事情了，但是过程现在实在是没搞懂，暂时先放一放，后面想通了以后专门出一篇理解的过程。

概率分布

在计算最大似然值的时候，要选对概率分布的类型。

a.伯努利分布（Bernoulli Distribution）**

定义：只有两个可能结果的单次试验的概率分布，即成功和失败。
参数：成功的概率 $p$ （0 ≤ p ≤ 1）。
概率质量函数（PMF）：P(X=1) = p, P(X=0) = 1-p。

b. 二项分布（Binomial Distribution）

定义：在固定次数的独立试验中，每次试验只有两种可能结果（成功或失败），且每次试验成功的概率相同的概率分布。
参数：试验次数 $n$ 和成功的概率 $p$ 。
概率质量函数（PMF）：P(X=k) = C(n, k) × p^k × (1-p)^(n-k)，其中 C(n, k) 是组合数，即从 n 个不同元素中取出 k 个元素的组合方式数量。

c. 泊松分布（Poisson Distribution）

定义：用于预测在固定时间间隔内某事件平均发生 $λ$ 次的条件下，该事件实际发生 $k$ 次的概率。
参数：事件发生的平均率 $λ$ （λ > 0）。
概率质量函数（PMF）：P(X=k) = (λ^k / k!) × e^(-λ)。

2. 连续型概率分布

a. 均匀分布（Uniform Distribution）

定义：在某一区间 $a, b$ 内所有值出现的概率相等的概率分布。
参数：区间的下限 $a$ 和上限 $b$ （a < b）。
概率密度函数（PDF）：f(x) = 1 / (b - a)（当 a ≤ x ≤ b 时）；否则 f(x) = 0。

b. 正态分布（Normal Distribution）/高斯分布（Gaussian Distribution）

定义：最常见的连续概率分布之一，许多自然现象都近似服从正态分布。
参数：均值 $μ$ 和标准差 $σ$ （σ > 0）。
概率密度函数（PDF） ：f(x) = (1 / (√(2π)σ)) × e^ $-(x-μ)^2 / (2σ\^2)$ 。

c. 指数分布（Exponential Distribution）

定义：描述两个相继发生的事件之间的时间间隔的概率分布，常用于可靠性理论和排队论。
参数：率参数 $λ$ （λ > 0），与泊松分布的 $λ$ 相关，但意义不同。
概率密度函数（PDF）：f(x) = λe^(-λx)（当 x ≥ 0 时）；否则 f(x) = 0。

3. 其他重要分布

a. 卡方分布（Chi-Squared Distribution）

定义：与正态分布的样本方差有关的概率分布，常用于假设检验。
参数：自由度 $ν$ （ν 为正整数）。

b. t分布（Student's t-Distribution）

定义：在小样本情况下估计总体均值的统计量的分布，常用于假设检验。
参数：自由度 $ν$ （ν 为正整数）。

c. F分布（F-Distribution）

定义：两个独立的卡方分布变量的比率的分布，常用于方差分析。
参数：分子自由度 $ν_1$ 和分母自由度 $ν_2$ （两者均为正整数）。