数据挖掘——朴素贝叶斯分类

数据挖掘------朴素贝叶斯分类

朴素贝叶斯分类

朴素贝叶斯分类

什么是分类？

找出描述和区分数据类或概念的模型，以便能够使用模型预测未知的对象的类标号

概念区分

分类与回归
- 分类是预测分类（离散、无序）标号
- 回归建立连续值函数模型

分类与聚类

分类是有监督学习，提供了训练元组的类标号
聚类是无监督学习，不依赖有类标号的训练实例

极大后验假设

极大后验假设定义：学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h，h被称为极大后验假设（Maximumaposteriori:MAP）
确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率，计算式如下：
h M A P = max ⁡ h ∈ H P ( h ∣ D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) / P ( D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) h_{M A P}=\max _{h \in H} P(h \mid D) =\max _{h \in H} \mathrm{P}(D \mid h) \mathrm{P}(h) / P(D)=\max _{h \in H} \mathrm{P}(D \mid h) \mathbf{P}(\mathrm{h}) hMAP=h∈HmaxP(h∣D)=h∈HmaxP(D∣h)P(h)/P(D)=h∈HmaxP(D∣h)P(h)

计算 P < a 1 , a 2 , ... , a n > ∣ h ) P<a_1,a_2,...,a_n > | ℎ) P<a1,a2,...,an>∣h) 时，当维度过高时，可用数据变得很稀疏，难以获得结果。

独立性假设

假设D的属性𝐚𝐢之间相互独立

优点

获得估计的 P ( a i ∣ h ) P(a_i | h ) P(ai∣h)比 P ( < a 1 , a 2 , ... , a n > ∣ h ) P(<a_1,a_2,...,a_n > | h ) P(<a1,a2,...,an>∣h)容易很多
如果D的属性之间不满足相互独立，朴素贝叶斯分类的结果是贝叶斯分类的近似

例题：

链接：https://www.nowcoder.com/questionTerminal/f25c433b9b0d42659d2cf3b39a8367ae

复制代码

假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是：
A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D.当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题
E.NB可以用来做最小二乘回归
F.以上说法都不正确

答案：BD

解析：总结就是，对于特征独立型的模型，当存在高度相关特征的时候，由于冗余特征并没有增加数据的信息，但是它却对模型分类的置信度产生了影响，冗余特征产生的效果也会叠加在模型中，从而使得模型效果变差。

根据公式，假如特征重复，那么p(x1/y)就会双倍，对于小于1得数相乘后概率会变小，所以特征会变弱，因此这个重复的特征在模型中的决定作用会减弱。

贝叶斯分类器总结

本质上是同时考虑了先验概率和似然概率的重要性

特点

属性可以离散、也可以连续
数学基础坚实、分类效率稳定
对缺失和噪声数据不太敏感
属性如果不相关，分类效果很好