朴素贝叶斯 | 多分类问题

目录

  • [一. 贝叶斯公式的推导](#一. 贝叶斯公式的推导)
  • [二. 朴素贝叶斯](#二. 朴素贝叶斯)
    • [2. 连续的朴素贝叶斯](#2. 连续的朴素贝叶斯)
    • [3. 伯努利朴素贝叶斯](#3. 伯努利朴素贝叶斯)
    • [4. 多项式朴素贝叶斯](#4. 多项式朴素贝叶斯)
      • [4.1 Laplace平滑](#4.1 Laplace平滑)
      • [4.2 Lidstone平滑](#4.2 Lidstone平滑)
  • [三. 概率图模型](#三. 概率图模型)
    • [1. 贝叶斯网络(Bayesian Network)](#1. 贝叶斯网络(Bayesian Network))
      • [1.1 全连接贝叶斯网络](#1.1 全连接贝叶斯网络)
      • [1.2 "正常"贝叶斯网络](#1.2 “正常”贝叶斯网络)
    • [2. 隐马尔可夫模型(HiddenMarkovModel)](#2. 隐马尔可夫模型(HiddenMarkovModel))
      • [2.1 马尔科夫过程](#2.1 马尔科夫过程)
      • [2.2 隐马尔科夫过程](#2.2 隐马尔科夫过程)

在正文开始之前,我们先来了解贝叶斯:

贝叶斯公式是由英国数学家贝叶斯提出,它的提出是为了解决后验概率问题,即:事情已经发生,要求这件事情发生的原因是由某个因素引起的概率的问题;

通俗一点讲:就是"执果寻因"的问题

这里我们相应的补充上先验问题的含义:事情还没有发生,要求这件事情发生的概率

一. 贝叶斯公式的推导

根据条件概率公式,我们可以的到
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)

那么,设 P ( A ) > 0 P(A)>0 P(A)>0,则会有:
P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(A∣B)P(B)

由全概率公式
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n}) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)

那么,当我想求 P ( B ∣ A ) P(B|A) P(B∣A)发生的概率时,我可以得到:
P ( B ∣ A ) = P ( A B ) P ( A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n})} P(B∣A)=P(A)P(AB)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)P(A∣B)P(B)

这也就是贝叶斯公式

我们再将公式整合后,就会得到:
P ( B ∣ A ) = P ( A B ) P ( A ) = P ( A ∣ B ) P ( B ) ∑ i = 1 n P ( A ∣ H i ) P ( H i ) P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{\sum_{i=1}^{n}P(A|H_{i})P(H_{i}) } P(B∣A)=P(A)P(AB)=∑i=1nP(A∣Hi)P(Hi)P(A∣B)P(B)

这里补充一点:

后验概率 P ( B ∣ A ) P(B|A) P(B∣A)

先验概率 P ( A ∣ B ) P(A|B) P(A∣B)

后验概率 是通过先验概率求出来的

二. 朴素贝叶斯

首先,我们来聊什么是朴素?

"朴素"的贝叶斯认为:事件与事件之间是独立的

  • 这里用垃圾邮件来举例是比较容易理解的:
        对于一封邮件,如果想要检测是否为垃圾邮件,最简单的做法就是:统计邮件中所有的词,绘制一个词典(可以理解为是一个1维的的向量),对于出现"买","优惠"等垃圾邮件高频词的特征标注为1,其他特征标注为0;对于标签值,我们认为 P ( y ) = 1 P(y)=1 P(y)=1时,为垃圾邮件

这样,垃圾邮件问题抽象为数学公式,就变为:

P ( y = 1 ∣ X ) = P ( X ∣ y = 1 ) p ( y = 1 ) p ( X ) P(y=1|X)=\frac{P(X|y=1)p(y=1)}{p(X)} P(y=1∣X)=p(X)P(X∣y=1)p(y=1)
P ( y = 0 ∣ X ) = P ( X ∣ y = 0 ) p ( y = 0 ) p ( X ) P(y=0|X)=\frac{P(X|y=0)p(y=0)}{p(X)} P(y=0∣X)=p(X)P(X∣y=0)p(y=0)

请注意:

我们之所以可以将问题抽象成公式的前提是,我们认为词与词之间没有关系,是相互独立的(但事实上,"优惠"后面出现"买"这个字的概率非常高,并不是完全独立的)

所以,对于朴素 用人话来讲就是:我天真的认为事件A与事件B没有关系

1. 离散的朴素贝叶斯

朴素贝叶斯导入示例

问题:若有一个输入值,他是黑皮肤,卷头发,那么他来自哪个洲?

那么我们的问题可以抽象为:

	P(y=亚|(黑卷)) 或 P(y=非|(黑卷))

是个分类问题呦!!!!


首先,我们需要计算参数,即:

  • 亚洲人比例
  • 非洲人比例
  • 亚洲黑皮肤比例
  • 亚洲黄皮肤比例
  • 亚洲直发比例
  • 亚洲卷发比例
  • ...

而后,我们需要计算每个特征的条件概率:

  • P(黑皮肤|亚洲)= ...

  • P(黑皮肤|非洲)= ...

  • P(黄皮肤|亚洲)= ...

  • P(黄皮肤|非洲)= ...

  • P(直发|亚洲)= ...

  • P(直发|非洲)= ...

  • P(卷发|亚洲)= ...

  • P(卷发|非洲)= ...

在假设条件相互独立的前提下,对于问题我们就得到了:
P ( 非 ∣ 黑卷 ) = P ( 黑皮肤 ∣ 非洲 ) P ( 卷发 ∣ 非洲 ) p ( 非洲 ) p ( 黑卷 ) P(非|黑卷)=\frac{P(黑皮肤|非洲)P(卷发|非洲)p(非洲)}{p(黑卷)} P(非∣黑卷)=p(黑卷)P(黑皮肤∣非洲)P(卷发∣非洲)p(非洲)

P ( 亚 ∣ 黑卷 ) = P ( 黑皮肤 ∣ 亚洲 ) P ( 卷发 ∣ 亚洲 ) p ( 亚洲 ) p ( 黑卷 ) P(亚|黑卷)=\frac{P(黑皮肤|亚洲)P(卷发|亚洲)p(亚洲)}{p(黑卷)} P(亚∣黑卷)=p(黑卷)P(黑皮肤∣亚洲)P(卷发∣亚洲)p(亚洲)

最后通过比较概率大小,模型将预测这个人来自...

通过上述例子,我们可以将问题推广,即
P ( y ∣ x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n}) P(y∣x1,x2,...,xn)

也就是
P ( y ∣ x 1 , x 2 , . . . , x n ) = p ( y ) P ( x 1 , x 2 , . . . , x n ∣ y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)P(x_{1},x_{2},...,x_{n}|y)}{P(x_{1},x_{2},...,x_{n})} P(y∣x1,x2,...,xn)=P(x1,x2,...,xn)p(y)P(x1,x2,...,xn∣y)

在朴素的条件下,我们可以将式子化简为
P ( y ∣ x 1 , x 2 , . . . , x n ) = p ( y ) ∏ i = 1 n P ( x n ∣ y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)\prod_{i=1}^{n} P(x_{n}|y)}{P(x_{1},x_{2},...,x_{n})} P(y∣x1,x2,...,xn)=P(x1,x2,...,xn)p(y)∏i=1nP(xn∣y)

其中 P ( x 1 , x 2 , . . . , x n ) P(x_{1},x_{2},...,x_{n}) P(x1,x2,...,xn)为常数,因此
P ( y ∣ x 1 , x 2 , . . . , x n ) ∝ p ( y ) ∏ i = 1 n P ( x n ∣ y ) P(y|x_{1},x_{2},...,x_{n})\propto p(y)\prod_{i=1}^{n} P(x_{n}|y) P(y∣x1,x2,...,xn)∝p(y)i=1∏nP(xn∣y)

所以,我们的计算目标就变成了:
y ^ = a r g max ⁡ y P ( y ) ∏ i = 1 n P ( x n ∣ y ) \hat{y} =arg \max_{y} P(y)\prod_{i=1}^{n} P(x_{n}|y) y^=argymaxP(y)i=1∏nP(xn∣y)

即:求 P ( y ) ∏ i = 1 n P ( x n ∣ y ) P(y)\prod_{i=1}^{n} P(x_{n}|y) P(y)∏i=1nP(xn∣y)取最大值时,y的取值

其中y的取值在实际中不一定只有两个(亚洲,非洲),所以朴素贝叶斯算法自身就可以做多分类的,而不需要使用OVR或者OVO的方法

离散的朴素贝叶斯训练

朴素贝叶斯的准备过程:

  • 构建模型:算出所有的先验概率

朴素贝叶斯的训练过程:

  • 计算 p ( y i ) , p ( x j ∣ y i ) p(y_{i}),p(x_{j}|y_{i}) p(yi),p(xj∣yi)

朴素贝叶斯的应用过程:

  • 以 p ( x ∣ y i ) p ( y i ) p(x|y_{i})p(y_{i}) p(x∣yi)p(yi)最大项作为x属性的类别

【注意:朴素贝叶斯没有梯度下降过程,只是在计算先验概率】

2. 连续的朴素贝叶斯

对于连续的特征属性 x i x_{i} xi,我们引入密度概率,即高斯朴素贝叶斯 :当特征属性为连续值时,分布服从高斯分布,在计算 P ( x ∣ y ) P(x|y) P(x∣y)的时候,可以直接使用高斯分布的概率密度公式:
g ( x , η , σ ) = 1 2 π σ e − ( x − η ) 2 2 σ 2 g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma} e^{-\frac{(x-\eta )^{2}}{2\sigma ^{2}} } g(x,η,σ)=2π σ1e−2σ2(x−η)2
P ( x i ∣ y k ) = g ( x i , η i , y k , σ i , y k ) P(x_{i}|y_{k})=g(x_{i},\eta {i,y{k}},\sigma {i,y{k}}) P(xi∣yk)=g(xi,ηi,yk,σi,yk)

假设有一些连续的数据,他们的label值有1,2,3...

训练过程:

特征连续时,取label为1的数据,算 η \eta η均值, σ \sigma σ方差

特征连续时,取label为2的数据,算 η \eta η均值, σ \sigma σ方差

特征连续时,取label为3的数据,算 η \eta η均值, σ \sigma σ方差

...

3. 伯努利朴素贝叶斯

伯努利分布是二项分布的一种特殊情况,可以看作是只进行一次实验的二项分布

  • 二项分布是一种离散分布,即标签值为1或0

  • 如果接收到了除了1和0以外的数据作为参数,可以通过BernoulliNB把输入数据二元化(取决于binarize 参数设置)

当特征属性服从伯努利分布时,公式为:
P ( x k ∣ y ) = p ( 1 ∣ y ) x k ∗ ( 1 − p ( 1 ∣ y ) ) 1 − x k P(x_{k}|y)=p(1|y)^{x_{k}}\ast (1-p(1|y))^{1-x_{k}} P(xk∣y)=p(1∣y)xk∗(1−p(1∣y))1−xk

4. 多项式朴素贝叶斯

在特征服从多项分布时(即特征离散,比如:非洲人、亚洲人的例子),对于朴素贝叶斯而言,我们的预测结果是否准确完全取决于我们的样本是否全面;

当样本存在数据小或是不全面的情况下(比如:未统计到亚洲存在黑皮肤),我们可以用平滑解决:

	平滑的主要作用是克服条件概率为0的问题

4.1 Laplace平滑

p ( y k ) = N y k + α N + k ∗ α p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha } p(yk)=N+k∗αNyk+α
p ( x i ∣ y k ) = N y k , x i + α N y k , x i + n i ∗ α p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha } p(xi∣yk)=Nyk,xi+ni∗αNyk,xi+α

其中 α = 1 α=1 α=1

4.2 Lidstone平滑

p ( y k ) = N y k + α N + k ∗ α p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha } p(yk)=N+k∗αNyk+α
p ( x i ∣ y k ) = N y k , x i + α N y k , x i + n i ∗ α p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha } p(xi∣yk)=Nyk,xi+ni∗αNyk,xi+α

其中 0 < α < 1 0<α<1 0<α<1

三. 概率图模型

上面我们讨论了,当事件与事件相互独立时,朴素贝叶斯多分类任务的思想与算法;但事实是,事件与事件之间并不是完全独立的,比如:垃圾邮件中"优惠"后通常接的是"买";machine learning中的learning是动名词而不是动词等等

诸如此类的例子,我们都可以将他们归为概率图模型,即:一种用于学习这些带有依赖的模型的强大框架

1. 贝叶斯网络(Bayesian Network)

当多个特征属性之间存在着某种相关关系的时候,朴素贝叶斯算法就无法解决问题了;而贝叶斯网络却是解决这类应用场景的一个非常好的算法

针对上面这个图,我们来做一些概念解释:

	贝叶斯网络,即:把研究系统中涉及到的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络
	贝叶斯网络又称有向无环图模型
	
	节点表示随机变量,可以是可观察到的变量、隐变量、未知参数等等
	
	接两个节点之间的箭头表式两个随机变量之间的因果关系,即这两个随机变量之间非条件独立
	
	 贝叶斯网络的关键方法是图模型

针对上面这幅图,我们可以得到公式
P ( a , b , c ) = P ( a ) P ( b ∣ a ) P ( c ∣ a , b ) P(a,b,c)=P(a)P(b|a)P(c|a,b) P(a,b,c)=P(a)P(b∣a)P(c∣a,b)

1.1 全连接贝叶斯网络

网络拓扑图全连接时,我们可以得到公式
P ( A , B , C , D , E ) = P ( A ) P ( B ∣ A ) P ( C ∣ A , B ) P ( D ∣ A , B , C ) P ( E ∣ A , B , C , D ) P(A,B,C,D,E)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)P(E|A,B,C,D) P(A,B,C,D,E)=P(A)P(B∣A)P(C∣A,B)P(D∣A,B,C)P(E∣A,B,C,D)

进一步抽象,我们就可以得到数学关系:
P ( x 1 , x 2 , . . . , x n ) = ∏ i = 2 n P ( x n ∣ x 1 , x 2 , . . . , x n − 1 ) P ( x 2 ∣ x 1 ) P ( x 1 ) P(x_{1},x_{2},...,x_{n})=\prod_{i=2}^{n} P(x_{n}|x_{1},x_{2},...,x_{n-1})P(x_{2}|x_{1})P(x_{1}) P(x1,x2,...,xn)=i=2∏nP(xn∣x1,x2,...,xn−1)P(x2∣x1)P(x1)

1.2 "正常"贝叶斯网络


P ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 ) = P ( x 1 ) P ( x 2 ) P ( x 3 ) P ( x 4 ∣ x 1 , x 2 , x 3 ) P ( x 5 ∣ x 1 , x 3 ) P ( x 6 ∣ x 4 ) P ( x 7 ∣ x 4 , x 5 ) P(x_{1},x_{2},x_{3},x_{4},x_{5},x_{6},x_{7})=P(x_{1})P(x_{2})P(x_{3})P(x_{4}|x_{1},x_{2},x_{3})P(x_{5}|x_{1},x_{3})P(x_{6}|x_{4})P(x_{7}|x_{4},x_{5}) P(x1,x2,x3,x4,x5,x6,x7)=P(x1)P(x2)P(x3)P(x4∣x1,x2,x3)P(x5∣x1,x3)P(x6∣x4)P(x7∣x4,x5)

2. 隐马尔可夫模型(HiddenMarkovModel)

隐马尔科夫模型是一类基于概率统计的模型,是一种结构最简单的动态贝叶斯网,也是有向图模型

在时序数据建模,例如:语音识别、文字识别、自然语言处理等领域广泛应用

  • 马尔可夫性质:

    随机过程中某一状态 S t S_{t} St发生的概率,只与它的前一个状态有关,而与更前的所有状态无关

  • 若某一随机过程满足马尔科夫性质,则称这一过程为马尔科夫过程 ,或称马尔科夫链

然而现实中,许多现象并不符合这一性质,但是我们可以假设某个事件具有马尔科夫性质,这个性质为很多无章可循的问题提供了一种解法

P ( S t ∣ S t − 1 , S t − 2 , . . , S t − n ) = P ( S t ∣ S t − 1 ) P(S_{t}|S_{t-1},S_{t-2},..,S_{t-n})=P(S_{t}|S_{t-1}) P(St∣St−1,St−2,..,St−n)=P(St∣St−1)

2.1 马尔科夫过程

	中每一个节点代表相应时刻的状态
	有向箭头代表了可能的状态转移,值表示状态转移概率

2.2 隐马尔科夫过程

在一个随机过程中,马尔科夫链虽然无法直接观测到,但可以观测到每个状态的输出结果。这个输出结果只与状态有关,并且是可观测到的。这种过程被称为隐马尔科夫过程,或者称为隐马尔科夫模型。

	隐马尔科夫模型中,马尔科夫链指的是隐状态S0,S1,...,St 序列

感谢阅读🌼

如果喜欢这篇文章,记得点赞👍和转发🔄哦!

有任何想法或问题,欢迎留言交流💬,我们下次见!

本文相关代码存放位置

代码实现

祝愉快🌟!


相关推荐
dwjf3218 分钟前
机器学习(三)-多项式线性回归
人工智能·机器学习·线性回归
葡萄爱14 分钟前
OpenCV图像分割
人工智能·opencv·计算机视觉
www_3dyz_com40 分钟前
人工智能在VR展览中扮演什么角色?
人工智能·vr
刘不二1 小时前
大模型应用—HivisionIDPhotos 证件照在线制作!支持离线、换装、美颜等
人工智能·开源
feilieren1 小时前
AI 视频:初识 Pika 2.0,基本使用攻略
人工智能·ai视频
开放知识图谱2 小时前
论文浅尝 | HippoRAG:神经生物学启发的大语言模型的长期记忆(Neurips2024)
人工智能·语言模型·自然语言处理
威化饼的一隅2 小时前
【多模态】swift-3框架使用
人工智能·深度学习·大模型·swift·多模态
人类群星闪耀时2 小时前
大模型技术优化负载均衡:AI驱动的智能化运维
运维·人工智能·负载均衡
编码小哥2 小时前
通过opencv加载、保存视频
人工智能·opencv
机器学习之心2 小时前
BiTCN-BiGRU基于双向时间卷积网络结合双向门控循环单元的数据多特征分类预测(多输入单输出)
深度学习·分类·gru