机器学习基础-贝叶斯分类器

目录

贝叶斯公式

极大似然估计

通俗理解什么是似然

生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念

计算思路

示例

判别式模型 (Discriminative Models)

概念

计算思路

示例

朴素贝叶斯分类器基本假设和计算

基本假设

计算

拉普拉斯修正


贝叶斯公式

  • 一种分类算法,根据概率来判断是哪个类别
  • 经常被用于文本分类
  • 输出结果是某个样本属于某个类别的概率

先验概率:根据以往的经验分析得到的概率,不需要样本数据,不受任何条件的影响。

后验概率:计算后验概率是朴素贝叶斯关键步骤

联合概率:P(A,B)几个事件同时发生的概率

相互独立:P(A,B)=P(A)*P(B)

贝叶斯公式描述了在给定条件下事件发生的后验概率。贝叶斯公式的一般形式如下:

朴素贝叶斯:假定特征之间相互独立的贝叶斯公式


极大似然估计

通俗理解什么是似然

基于已经确定的结果,来推测产生这个结果的可能环境,或环境中的某些参数。

例如抛硬币,以下是一个根据结果来判断事情本身性质的过程

已知观察结果是x的情况下推断sita
概率vs似然

极大似然估计: 利用已知的样本标记结果,反推最有可能导致这些样本出现的模型参数

具体来说,MLE 试图找到一组参数值,使得观测数据的概率最大。


生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念
  • 目标:学习特征 X 和标记 Y 的联合概率分布 P(X,Y)。
  • 应用:理解数据的生成机制,并能用于生成新数据。
计算思路
  1. 学习先验概率 P(Y),即标记 Y 的分布。(最大似然估计)
  2. 学习条件概率 P(X∣Y),即在给定标记 Y 下特征 X 的分布。
  3. 得到联合概率分布 P(X,Y): P(X,Y)=P(Y)P(X∣Y) 。
  4. 计算后验概率 P(Y∣X),即给定特征 X 时标记 Y 出现的概率。(贝叶斯定理)
示例
  • 朴素贝叶斯(Naive Bayes)

判别式模型 (Discriminative Models)

概念
  • 目标:直接学习条件概率分布P(Y∣X),即给定特征 X 时标记 Y 出现的概率。
  • 应用:主要用于分类和回归任务,不关注数据的生成过程。
计算思路
  • 直接从数据中学习决策边界或条件概率分布 P(Y∣X),而不需要了解 P(X) 或 P(Y)。
示例
  • 支持向量机(SVM)
  • 决策树(Decision Trees)
  • BP神经网络(Backpropagation Neural Networks)

朴素贝叶斯分类器基本假设和计算

基本假设

计算

① 估计类先验概率P(c):

② 为每个属性估计条件概率P(xi | c):

ps: 使用高斯分布 来估计连续特征的条件概率

③ 计算后验概率

拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出 现问题,. 比如"敲声=清脆"测试例,训练集中没有该样例,因此连 乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是 "好瓜=否",这显然不合理。

拉普拉斯修正通过向每个可能的特征值添加一个小的常数值来避免概率为零的问题。具体来说,它假设每个类别下的每个特征值至少出现了一次。这样可以确保即使某个特征值在训练集中从未出现过,其条件概率也不会为零。

假设我们有一个特征"敲声",它可以取三个不同的值:"浊响"、"沉闷"和"清脆"。如果我们发现训练集中没有"好瓜"类别下"敲声=清脆"的样例,那么不使用拉普拉斯修正的情况下,P(清脆∣好瓜=是) 将为零。

使用拉普拉斯修正后,计算变为:

注意其他特征也要改变

相关推荐
2401_858286113 分钟前
125.【C语言】数据结构之归并排序递归解法
c语言·开发语言·数据结构·算法·排序算法·归并排序
guygg8840 分钟前
基于matlab的FIR滤波器
开发语言·算法·matlab
搞笑的秀儿1 小时前
信息新技术
大数据·人工智能·物联网·云计算·区块链
ysh98881 小时前
PP-OCR:一款实用的超轻量级OCR系统
算法
阿里云大数据AI技术1 小时前
OpenSearch 视频 RAG 实践
数据库·人工智能·llm
遇雪长安2 小时前
差分定位技术:原理、分类与应用场景
算法·分类·数据挖掘·rtk·差分定位
数通Dinner2 小时前
RSTP 拓扑收敛机制
网络·网络协议·tcp/ip·算法·信息与通信
XMAIPC_Robot2 小时前
基于ARM+FPGA的光栅尺精密位移加速度测试解决方案
arm开发·人工智能·fpga开发·自动化·边缘计算
加油吧zkf2 小时前
YOLO目标检测数据集类别:分类与应用
人工智能·计算机视觉·目标跟踪
Blossom.1182 小时前
机器学习在智能制造业中的应用:质量检测与设备故障预测
人工智能·深度学习·神经网络·机器学习·机器人·tensorflow·sklearn