AI小白的第七天:必要的数学知识(四)

概率 Probability

1. 概率的定义

概率是一个介于 0 和 1 之间的数,表示某个事件发生的可能性:

  • 0:事件不可能发生。
  • 1:事件必然发生。
  • 0 到 1 之间:事件发生的可能性大小。

例如,掷一枚公平的硬币,正面朝上的概率是 0.5。


2. 概率的计算

(1)频率学派

抛一万次硬币,看硬币正面向上的概率。
P n ( x ) = n x n P_n(x)=\frac{n_x}{n} Pn(x)=nnx

  • x x x代表证明朝上;
  • n n n为实验总数;
  • n x n_x nx为实验过程中发生x的次数。

这种方式,实验成本高,且误差不可控,概率始终是个近似值。

(2)古典学派

样本空间中,每个结果发生的可能性相等,则事件A的概率为:
P ( A ) = ∣ A ∣ ∣ S ∣ P(A)=\frac{|A|}{|S|} P(A)=∣S∣∣A∣

  • 其中|A|是事件A的结果数
  • |S|是样本空间的结果数
(3)贝叶斯学派

P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)

  • P(A)表示事件A发生的概率,称为先验(prior)概率;
  • P(B)表示事件B发生的概率,称为标准化常量或者证据(evidence);
  • P(B|A)表示在事件A发生的条件下,事件B发生的概率,通常称之为可能性或者似然(likelihood);
  • P(A|B)表示在事件B发生的条件下,事件A发生的概率,也称为后验(posterior),也就是表示了事件发生了,并且它属于某一类别的概率;


最大似然估计 Maximum Likelihood Estimation, MLE

1. 基本概念

  • 参数估计:在统计学中,我们通常假设数据服从某个概率分布(如正态分布、泊松分布等),而分布的参数(如均值、方差)需要通过数据来估计。
  • 似然函数:给定一组参数,似然函数描述了观测数据在该参数下出现的概率。
  • 最大似然估计:通过最大化似然函数,找到最可能生成观测数据的参数值。

θ ^ = a r g m a x P ( X ∣ θ ) \hat \theta =argmaxP(X|\theta) θ^=argmaxP(X∣θ)

  • θ ^ \hat \theta θ^ 是最优参数
  • a r g m a x argmax argmax表示求使得 P ( X ∣ θ ) P(X|\theta) P(X∣θ)最大化的参数值。

2. 似然函数的定义

假设观测数据为 X = x 1 , x 2 , . . . , x 3 X={x_1,x_2,...,x_3} X=x1,x2,...,x3,且数据服从某个概率分布 P ( X ∣ θ ) P(X|\theta) P(X∣θ),其中 θ \theta θ是分布的参数。似然函数定义为

L ( θ ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta)=P(X|\theta)=\prod_{i=1}^n P(x_i|\theta) L(θ)=P(X∣θ)=i=1∏nP(xi∣θ)

3. 最大似然估计的步骤

(1)写出似然函数

根据数据分布假设,写出似然函数 L ( θ ) L(θ) L(θ)。

(2)取对数似然函数

为了简化计算,通常对似然函数取对数,得到对数似然函数:
ln ⁡ L ( θ ) = ∑ i = 1 n ln ⁡ P ( x i ∣ θ ) \ln L(\theta) = \sum_{i=1}^n \ln P(x_i|\theta) lnL(θ)=i=1∑nlnP(xi∣θ)

(3)取对数似然函数

对对数似然函数关于参数 θ θ θ 求导,并令导数为零,求解使似然函数最大的参数值:
d d θ ln ⁡ L ( θ ) = 0 \frac{d}{d\theta}\ln L(\theta) =0 dθdlnL(θ)=0

(4)求解参数

解上述方程,得到参数的估计值 θ ^ \hat \theta θ^。

关于"最大似然值估计",我明白它干的事情了,但是过程现在实在是没搞懂,暂时先放一放,后面想通了以后专门出一篇理解的过程。

概率分布

在计算最大似然值的时候,要选对概率分布的类型。

a.伯努利分布(Bernoulli Distribution)**
  • 定义只有两个可能结果的单次试验的概率分布,即成功和失败。
  • 参数:成功的概率 p(0 ≤ p ≤ 1)。
  • 概率质量函数(PMF):P(X=1) = p, P(X=0) = 1-p。
b. 二项分布(Binomial Distribution)
  • 定义:在固定次数的独立试验中,每次试验只有两种可能结果(成功或失败),且每次试验成功的概率相同的概率分布。
  • 参数:试验次数 n 和成功的概率 p
  • 概率质量函数(PMF):P(X=k) = C(n, k) × p^k × (1-p)^(n-k),其中 C(n, k) 是组合数,即从 n 个不同元素中取出 k 个元素的组合方式数量。
c. 泊松分布(Poisson Distribution)
  • 定义:用于预测在固定时间间隔内某事件平均发生 λ 次的条件下,该事件实际发生 k 次的概率。
  • 参数:事件发生的平均率 λ(λ > 0)。
  • 概率质量函数(PMF):P(X=k) = (λ^k / k!) × e^(-λ)。

2. 连续型概率分布

a. 均匀分布(Uniform Distribution)
  • 定义:在某一区间 [a, b] 内所有值出现的概率相等的概率分布。
  • 参数:区间的下限 a 和上限 b(a < b)。
  • 概率密度函数(PDF):f(x) = 1 / (b - a)(当 a ≤ x ≤ b 时);否则 f(x) = 0。
b. 正态分布(Normal Distribution)/高斯分布(Gaussian Distribution)
  • 定义:最常见的连续概率分布之一,许多自然现象都近似服从正态分布。
  • 参数:均值 μ 和标准差 σ(σ > 0)。
  • 概率密度函数(PDF) :f(x) = (1 / (√(2π)σ)) × e[-(x-μ)2 / (2σ^2)]。
c. 指数分布(Exponential Distribution)
  • 定义:描述两个相继发生的事件之间的时间间隔的概率分布,常用于可靠性理论和排队论。
  • 参数:率参数 λ(λ > 0),与泊松分布的 λ 相关,但意义不同。
  • 概率密度函数(PDF):f(x) = λe^(-λx)(当 x ≥ 0 时);否则 f(x) = 0。

3. 其他重要分布

a. 卡方分布(Chi-Squared Distribution)
  • 定义:与正态分布的样本方差有关的概率分布,常用于假设检验。
  • 参数:自由度 ν(ν 为正整数)。
b. t分布(Student's t-Distribution)
  • 定义:在小样本情况下估计总体均值的统计量的分布,常用于假设检验。
  • 参数:自由度 ν(ν 为正整数)。
c. F分布(F-Distribution)
  • 定义:两个独立的卡方分布变量的比率的分布,常用于方差分析。
  • 参数:分子自由度 ν_1 和分母自由度 ν_2(两者均为正整数)。
相关推荐
代码骑士3 分钟前
集成学习(Ensemble Learning)基础知识1
人工智能·机器学习·集成学习
EasyNVR16 分钟前
安防监控视频平台EasyNVR级联视频上云系统EasyNVS出现“Login error”报错的原因排查
人工智能·tcp/ip·音视频·边缘计算·智能硬件
ToreanonyTang16 分钟前
自动驾驶AEB误触发率评估的必要测试里程估计
人工智能·数学建模·自动驾驶
IT从业者张某某16 分钟前
大语言模型-2.1-Transformer架构及详细配置
人工智能·语言模型·transformer·datawhale
逆枫゛17 分钟前
谈谈最近AI在我工作生活中的深度应用
人工智能·生活
用户842916452522728 分钟前
【AI游戏开发】我用Trae3分钟教你打飞机之下载游戏素材
人工智能·python
yuanpan33 分钟前
机器学习中说的正向传递和反向传递是什么意思
人工智能·机器学习
码农幻想梦1 小时前
实验12深度学习
人工智能·深度学习
程序员yt1 小时前
双一流软件工程大二听闻 Java 前景堪忧,是否该转C++或人工智能或者读研?
java·c++·人工智能
TSINGSEE1 小时前
AI+视频赋能智慧农业:EasyCVR打造全域可视化农场监管平台
人工智能·音视频