目录
贝叶斯公式
- 一种分类算法,根据概率来判断是哪个类别
- 经常被用于文本分类
- 输出结果是某个样本属于某个类别的概率
先验概率:根据以往的经验分析得到的概率,不需要样本数据,不受任何条件的影响。
后验概率:计算后验概率是朴素贝叶斯关键步骤
联合概率:P(A,B)几个事件同时发生的概率
相互独立:P(A,B)=P(A)*P(B)
贝叶斯公式描述了在给定条件下事件发生的后验概率。贝叶斯公式的一般形式如下:
朴素贝叶斯:假定特征之间相互独立的贝叶斯公式
极大似然估计
通俗理解什么是似然
基于已经确定的结果,来推测产生这个结果的可能环境,或环境中的某些参数。
例如抛硬币,以下是一个根据结果来判断事情本身性质的过程
已知观察结果是x的情况下推断sita
概率vs似然
极大似然估计: 利用已知的样本标记结果,反推最有可能导致这些样本出现的模型参数
具体来说,MLE 试图找到一组参数值,使得观测数据的概率最大。
生成式模型和判别式模型的概念
生成式模型 (Generative Models)
概念
- 目标:学习特征 X 和标记 Y 的联合概率分布 P(X,Y)。
- 应用:理解数据的生成机制,并能用于生成新数据。
计算思路
- 学习先验概率 P(Y),即标记 Y 的分布。(最大似然估计)
- 学习条件概率 P(X∣Y),即在给定标记 Y 下特征 X 的分布。
- 得到联合概率分布 P(X,Y): P(X,Y)=P(Y)P(X∣Y) 。
- 计算后验概率 P(Y∣X),即给定特征 X 时标记 Y 出现的概率。(贝叶斯定理)
示例
- 朴素贝叶斯(Naive Bayes)
判别式模型 (Discriminative Models)
概念
- 目标:直接学习条件概率分布P(Y∣X),即给定特征 X 时标记 Y 出现的概率。
- 应用:主要用于分类和回归任务,不关注数据的生成过程。
计算思路
- 直接从数据中学习决策边界或条件概率分布 P(Y∣X),而不需要了解 P(X) 或 P(Y)。
示例
- 支持向量机(SVM)
- 决策树(Decision Trees)
- BP神经网络(Backpropagation Neural Networks)
朴素贝叶斯分类器基本假设和计算
基本假设
计算
① 估计类先验概率P(c):
② 为每个属性估计条件概率P(xi | c):
ps: 使用高斯分布 来估计连续特征的条件概率。
③ 计算后验概率
拉普拉斯修正
若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出 现问题,. 比如"敲声=清脆"测试例,训练集中没有该样例,因此连 乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是 "好瓜=否",这显然不合理。
拉普拉斯修正通过向每个可能的特征值添加一个小的常数值来避免概率为零的问题。具体来说,它假设每个类别下的每个特征值至少出现了一次。这样可以确保即使某个特征值在训练集中从未出现过,其条件概率也不会为零。
假设我们有一个特征"敲声",它可以取三个不同的值:"浊响"、"沉闷"和"清脆"。如果我们发现训练集中没有"好瓜"类别下"敲声=清脆"的样例,那么不使用拉普拉斯修正的情况下,P(清脆∣好瓜=是) 将为零。
使用拉普拉斯修正后,计算变为:
注意其他特征也要改变