朴素贝叶斯 | 多分类问题

目录

  • [一. 贝叶斯公式的推导](#一. 贝叶斯公式的推导)
  • [二. 朴素贝叶斯](#二. 朴素贝叶斯)
    • [2. 连续的朴素贝叶斯](#2. 连续的朴素贝叶斯)
    • [3. 伯努利朴素贝叶斯](#3. 伯努利朴素贝叶斯)
    • [4. 多项式朴素贝叶斯](#4. 多项式朴素贝叶斯)
      • [4.1 Laplace平滑](#4.1 Laplace平滑)
      • [4.2 Lidstone平滑](#4.2 Lidstone平滑)
  • [三. 概率图模型](#三. 概率图模型)
    • [1. 贝叶斯网络(Bayesian Network)](#1. 贝叶斯网络(Bayesian Network))
      • [1.1 全连接贝叶斯网络](#1.1 全连接贝叶斯网络)
      • [1.2 "正常"贝叶斯网络](#1.2 “正常”贝叶斯网络)
    • [2. 隐马尔可夫模型(HiddenMarkovModel)](#2. 隐马尔可夫模型(HiddenMarkovModel))
      • [2.1 马尔科夫过程](#2.1 马尔科夫过程)
      • [2.2 隐马尔科夫过程](#2.2 隐马尔科夫过程)

在正文开始之前,我们先来了解贝叶斯:

贝叶斯公式是由英国数学家贝叶斯提出,它的提出是为了解决后验概率问题,即:事情已经发生,要求这件事情发生的原因是由某个因素引起的概率的问题;

通俗一点讲:就是"执果寻因"的问题

这里我们相应的补充上先验问题的含义:事情还没有发生,要求这件事情发生的概率

一. 贝叶斯公式的推导

根据条件概率公式,我们可以的到
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)

那么,设 P ( A ) > 0 P(A)>0 P(A)>0,则会有:
P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(A∣B)P(B)

由全概率公式
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n}) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)

那么,当我想求 P ( B ∣ A ) P(B|A) P(B∣A)发生的概率时,我可以得到:
P ( B ∣ A ) = P ( A B ) P ( A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n})} P(B∣A)=P(A)P(AB)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...+P(A∣Bn)P(Bn)P(A∣B)P(B)

这也就是贝叶斯公式

我们再将公式整合后,就会得到:
P ( B ∣ A ) = P ( A B ) P ( A ) = P ( A ∣ B ) P ( B ) ∑ i = 1 n P ( A ∣ H i ) P ( H i ) P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{\sum_{i=1}^{n}P(A|H_{i})P(H_{i}) } P(B∣A)=P(A)P(AB)=∑i=1nP(A∣Hi)P(Hi)P(A∣B)P(B)

这里补充一点:

后验概率 P ( B ∣ A ) P(B|A) P(B∣A)

先验概率 P ( A ∣ B ) P(A|B) P(A∣B)

后验概率 是通过先验概率求出来的

二. 朴素贝叶斯

首先,我们来聊什么是朴素?

"朴素"的贝叶斯认为:事件与事件之间是独立的

  • 这里用垃圾邮件来举例是比较容易理解的:
        对于一封邮件,如果想要检测是否为垃圾邮件,最简单的做法就是:统计邮件中所有的词,绘制一个词典(可以理解为是一个1维的的向量),对于出现"买","优惠"等垃圾邮件高频词的特征标注为1,其他特征标注为0;对于标签值,我们认为 P ( y ) = 1 P(y)=1 P(y)=1时,为垃圾邮件

这样,垃圾邮件问题抽象为数学公式,就变为:

P ( y = 1 ∣ X ) = P ( X ∣ y = 1 ) p ( y = 1 ) p ( X ) P(y=1|X)=\frac{P(X|y=1)p(y=1)}{p(X)} P(y=1∣X)=p(X)P(X∣y=1)p(y=1)
P ( y = 0 ∣ X ) = P ( X ∣ y = 0 ) p ( y = 0 ) p ( X ) P(y=0|X)=\frac{P(X|y=0)p(y=0)}{p(X)} P(y=0∣X)=p(X)P(X∣y=0)p(y=0)

请注意:

我们之所以可以将问题抽象成公式的前提是,我们认为词与词之间没有关系,是相互独立的(但事实上,"优惠"后面出现"买"这个字的概率非常高,并不是完全独立的)

所以,对于朴素 用人话来讲就是:我天真的认为事件A与事件B没有关系

1. 离散的朴素贝叶斯

朴素贝叶斯导入示例

问题:若有一个输入值,他是黑皮肤,卷头发,那么他来自哪个洲?

那么我们的问题可以抽象为:

	P(y=亚|(黑卷)) 或 P(y=非|(黑卷))

是个分类问题呦!!!!


首先,我们需要计算参数,即:

  • 亚洲人比例
  • 非洲人比例
  • 亚洲黑皮肤比例
  • 亚洲黄皮肤比例
  • 亚洲直发比例
  • 亚洲卷发比例
  • ...

而后,我们需要计算每个特征的条件概率:

  • P(黑皮肤|亚洲)= ...

  • P(黑皮肤|非洲)= ...

  • P(黄皮肤|亚洲)= ...

  • P(黄皮肤|非洲)= ...

  • P(直发|亚洲)= ...

  • P(直发|非洲)= ...

  • P(卷发|亚洲)= ...

  • P(卷发|非洲)= ...

在假设条件相互独立的前提下,对于问题我们就得到了:
P ( 非 ∣ 黑卷 ) = P ( 黑皮肤 ∣ 非洲 ) P ( 卷发 ∣ 非洲 ) p ( 非洲 ) p ( 黑卷 ) P(非|黑卷)=\frac{P(黑皮肤|非洲)P(卷发|非洲)p(非洲)}{p(黑卷)} P(非∣黑卷)=p(黑卷)P(黑皮肤∣非洲)P(卷发∣非洲)p(非洲)

P ( 亚 ∣ 黑卷 ) = P ( 黑皮肤 ∣ 亚洲 ) P ( 卷发 ∣ 亚洲 ) p ( 亚洲 ) p ( 黑卷 ) P(亚|黑卷)=\frac{P(黑皮肤|亚洲)P(卷发|亚洲)p(亚洲)}{p(黑卷)} P(亚∣黑卷)=p(黑卷)P(黑皮肤∣亚洲)P(卷发∣亚洲)p(亚洲)

最后通过比较概率大小,模型将预测这个人来自...

通过上述例子,我们可以将问题推广,即
P ( y ∣ x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n}) P(y∣x1,x2,...,xn)

也就是
P ( y ∣ x 1 , x 2 , . . . , x n ) = p ( y ) P ( x 1 , x 2 , . . . , x n ∣ y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)P(x_{1},x_{2},...,x_{n}|y)}{P(x_{1},x_{2},...,x_{n})} P(y∣x1,x2,...,xn)=P(x1,x2,...,xn)p(y)P(x1,x2,...,xn∣y)

在朴素的条件下,我们可以将式子化简为
P ( y ∣ x 1 , x 2 , . . . , x n ) = p ( y ) ∏ i = 1 n P ( x n ∣ y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)\prod_{i=1}^{n} P(x_{n}|y)}{P(x_{1},x_{2},...,x_{n})} P(y∣x1,x2,...,xn)=P(x1,x2,...,xn)p(y)∏i=1nP(xn∣y)

其中 P ( x 1 , x 2 , . . . , x n ) P(x_{1},x_{2},...,x_{n}) P(x1,x2,...,xn)为常数,因此
P ( y ∣ x 1 , x 2 , . . . , x n ) ∝ p ( y ) ∏ i = 1 n P ( x n ∣ y ) P(y|x_{1},x_{2},...,x_{n})\propto p(y)\prod_{i=1}^{n} P(x_{n}|y) P(y∣x1,x2,...,xn)∝p(y)i=1∏nP(xn∣y)

所以,我们的计算目标就变成了:
y ^ = a r g max ⁡ y P ( y ) ∏ i = 1 n P ( x n ∣ y ) \hat{y} =arg \max_{y} P(y)\prod_{i=1}^{n} P(x_{n}|y) y^=argymaxP(y)i=1∏nP(xn∣y)

即:求 P ( y ) ∏ i = 1 n P ( x n ∣ y ) P(y)\prod_{i=1}^{n} P(x_{n}|y) P(y)∏i=1nP(xn∣y)取最大值时,y的取值

其中y的取值在实际中不一定只有两个(亚洲,非洲),所以朴素贝叶斯算法自身就可以做多分类的,而不需要使用OVR或者OVO的方法

离散的朴素贝叶斯训练

朴素贝叶斯的准备过程:

  • 构建模型:算出所有的先验概率

朴素贝叶斯的训练过程:

  • 计算 p ( y i ) , p ( x j ∣ y i ) p(y_{i}),p(x_{j}|y_{i}) p(yi),p(xj∣yi)

朴素贝叶斯的应用过程:

  • 以 p ( x ∣ y i ) p ( y i ) p(x|y_{i})p(y_{i}) p(x∣yi)p(yi)最大项作为x属性的类别

【注意:朴素贝叶斯没有梯度下降过程,只是在计算先验概率】

2. 连续的朴素贝叶斯

对于连续的特征属性 x i x_{i} xi,我们引入密度概率,即高斯朴素贝叶斯 :当特征属性为连续值时,分布服从高斯分布,在计算 P ( x ∣ y ) P(x|y) P(x∣y)的时候,可以直接使用高斯分布的概率密度公式:
g ( x , η , σ ) = 1 2 π σ e − ( x − η ) 2 2 σ 2 g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma} e^{-\frac{(x-\eta )^{2}}{2\sigma ^{2}} } g(x,η,σ)=2π σ1e−2σ2(x−η)2
P ( x i ∣ y k ) = g ( x i , η i , y k , σ i , y k ) P(x_{i}|y_{k})=g(x_{i},\eta {i,y{k}},\sigma {i,y{k}}) P(xi∣yk)=g(xi,ηi,yk,σi,yk)

假设有一些连续的数据,他们的label值有1,2,3...

训练过程:

特征连续时,取label为1的数据,算 η \eta η均值, σ \sigma σ方差

特征连续时,取label为2的数据,算 η \eta η均值, σ \sigma σ方差

特征连续时,取label为3的数据,算 η \eta η均值, σ \sigma σ方差

...

3. 伯努利朴素贝叶斯

伯努利分布是二项分布的一种特殊情况,可以看作是只进行一次实验的二项分布

  • 二项分布是一种离散分布,即标签值为1或0

  • 如果接收到了除了1和0以外的数据作为参数,可以通过BernoulliNB把输入数据二元化(取决于binarize 参数设置)

当特征属性服从伯努利分布时,公式为:
P ( x k ∣ y ) = p ( 1 ∣ y ) x k ∗ ( 1 − p ( 1 ∣ y ) ) 1 − x k P(x_{k}|y)=p(1|y)^{x_{k}}\ast (1-p(1|y))^{1-x_{k}} P(xk∣y)=p(1∣y)xk∗(1−p(1∣y))1−xk

4. 多项式朴素贝叶斯

在特征服从多项分布时(即特征离散,比如:非洲人、亚洲人的例子),对于朴素贝叶斯而言,我们的预测结果是否准确完全取决于我们的样本是否全面;

当样本存在数据小或是不全面的情况下(比如:未统计到亚洲存在黑皮肤),我们可以用平滑解决:

	平滑的主要作用是克服条件概率为0的问题

4.1 Laplace平滑

p ( y k ) = N y k + α N + k ∗ α p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha } p(yk)=N+k∗αNyk+α
p ( x i ∣ y k ) = N y k , x i + α N y k , x i + n i ∗ α p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha } p(xi∣yk)=Nyk,xi+ni∗αNyk,xi+α

其中 α = 1 α=1 α=1

4.2 Lidstone平滑

p ( y k ) = N y k + α N + k ∗ α p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha } p(yk)=N+k∗αNyk+α
p ( x i ∣ y k ) = N y k , x i + α N y k , x i + n i ∗ α p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha } p(xi∣yk)=Nyk,xi+ni∗αNyk,xi+α

其中 0 < α < 1 0<α<1 0<α<1

三. 概率图模型

上面我们讨论了,当事件与事件相互独立时,朴素贝叶斯多分类任务的思想与算法;但事实是,事件与事件之间并不是完全独立的,比如:垃圾邮件中"优惠"后通常接的是"买";machine learning中的learning是动名词而不是动词等等

诸如此类的例子,我们都可以将他们归为概率图模型,即:一种用于学习这些带有依赖的模型的强大框架

1. 贝叶斯网络(Bayesian Network)

当多个特征属性之间存在着某种相关关系的时候,朴素贝叶斯算法就无法解决问题了;而贝叶斯网络却是解决这类应用场景的一个非常好的算法

针对上面这个图,我们来做一些概念解释:

	贝叶斯网络,即:把研究系统中涉及到的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络
	贝叶斯网络又称有向无环图模型
	
	节点表示随机变量,可以是可观察到的变量、隐变量、未知参数等等
	
	接两个节点之间的箭头表式两个随机变量之间的因果关系,即这两个随机变量之间非条件独立
	
	 贝叶斯网络的关键方法是图模型

针对上面这幅图,我们可以得到公式
P ( a , b , c ) = P ( a ) P ( b ∣ a ) P ( c ∣ a , b ) P(a,b,c)=P(a)P(b|a)P(c|a,b) P(a,b,c)=P(a)P(b∣a)P(c∣a,b)

1.1 全连接贝叶斯网络

网络拓扑图全连接时,我们可以得到公式
P ( A , B , C , D , E ) = P ( A ) P ( B ∣ A ) P ( C ∣ A , B ) P ( D ∣ A , B , C ) P ( E ∣ A , B , C , D ) P(A,B,C,D,E)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)P(E|A,B,C,D) P(A,B,C,D,E)=P(A)P(B∣A)P(C∣A,B)P(D∣A,B,C)P(E∣A,B,C,D)

进一步抽象,我们就可以得到数学关系:
P ( x 1 , x 2 , . . . , x n ) = ∏ i = 2 n P ( x n ∣ x 1 , x 2 , . . . , x n − 1 ) P ( x 2 ∣ x 1 ) P ( x 1 ) P(x_{1},x_{2},...,x_{n})=\prod_{i=2}^{n} P(x_{n}|x_{1},x_{2},...,x_{n-1})P(x_{2}|x_{1})P(x_{1}) P(x1,x2,...,xn)=i=2∏nP(xn∣x1,x2,...,xn−1)P(x2∣x1)P(x1)

1.2 "正常"贝叶斯网络


P ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 , x 7 ) = P ( x 1 ) P ( x 2 ) P ( x 3 ) P ( x 4 ∣ x 1 , x 2 , x 3 ) P ( x 5 ∣ x 1 , x 3 ) P ( x 6 ∣ x 4 ) P ( x 7 ∣ x 4 , x 5 ) P(x_{1},x_{2},x_{3},x_{4},x_{5},x_{6},x_{7})=P(x_{1})P(x_{2})P(x_{3})P(x_{4}|x_{1},x_{2},x_{3})P(x_{5}|x_{1},x_{3})P(x_{6}|x_{4})P(x_{7}|x_{4},x_{5}) P(x1,x2,x3,x4,x5,x6,x7)=P(x1)P(x2)P(x3)P(x4∣x1,x2,x3)P(x5∣x1,x3)P(x6∣x4)P(x7∣x4,x5)

2. 隐马尔可夫模型(HiddenMarkovModel)

隐马尔科夫模型是一类基于概率统计的模型,是一种结构最简单的动态贝叶斯网,也是有向图模型

在时序数据建模,例如:语音识别、文字识别、自然语言处理等领域广泛应用

  • 马尔可夫性质:

    随机过程中某一状态 S t S_{t} St发生的概率,只与它的前一个状态有关,而与更前的所有状态无关

  • 若某一随机过程满足马尔科夫性质,则称这一过程为马尔科夫过程 ,或称马尔科夫链

然而现实中,许多现象并不符合这一性质,但是我们可以假设某个事件具有马尔科夫性质,这个性质为很多无章可循的问题提供了一种解法

P ( S t ∣ S t − 1 , S t − 2 , . . , S t − n ) = P ( S t ∣ S t − 1 ) P(S_{t}|S_{t-1},S_{t-2},..,S_{t-n})=P(S_{t}|S_{t-1}) P(St∣St−1,St−2,..,St−n)=P(St∣St−1)

2.1 马尔科夫过程

	中每一个节点代表相应时刻的状态
	有向箭头代表了可能的状态转移,值表示状态转移概率

2.2 隐马尔科夫过程

在一个随机过程中,马尔科夫链虽然无法直接观测到,但可以观测到每个状态的输出结果。这个输出结果只与状态有关,并且是可观测到的。这种过程被称为隐马尔科夫过程,或者称为隐马尔科夫模型。

	隐马尔科夫模型中,马尔科夫链指的是隐状态S0,S1,...,St 序列

感谢阅读🌼

如果喜欢这篇文章,记得点赞👍和转发🔄哦!

有任何想法或问题,欢迎留言交流💬,我们下次见!

本文相关代码存放位置

代码实现

祝愉快🌟!


相关推荐
天天代码码天天4 分钟前
C# OpenCvSharp 部署表格检测
人工智能·目标检测·表格检测
斯多葛的信徒9 分钟前
看看你的电脑可以跑 AI 模型吗?
人工智能·语言模型·电脑·llama
正在走向自律9 分钟前
AI 写作(六):核心技术与多元应用(6/10)
人工智能·aigc·ai写作
AI科技大本营9 分钟前
Anthropic四大专家“会诊”:实现深度思考不一定需要多智能体,AI完美对齐比失控更可怕!...
人工智能·深度学习
Cc不爱吃洋葱9 分钟前
如何本地部署AI智能体平台,带你手搓一个AI Agent
人工智能·大语言模型·agent·ai大模型·ai agent·智能体·ai智能体
网安打工仔10 分钟前
斯坦福李飞飞最新巨著《AI Agent综述》
人工智能·自然语言处理·大模型·llm·agent·ai大模型·大模型入门
AGI学习社10 分钟前
2024中国排名前十AI大模型进展、应用案例与发展趋势
linux·服务器·人工智能·华为·llama
AI_Tool10 分钟前
纳米AI搜索官网 - 新一代智能答案引擎
人工智能·搜索引擎
Damon小智11 分钟前
合合信息DocFlow产品解析与体验:人人可搭建的AI自动化单据处理工作流
图像处理·人工智能·深度学习·机器学习·ai·自动化·docflow
小虚竹11 分钟前
用AI辅导侄女大学物理的质点运动学问题
人工智能·chatgpt