机器学习基础-贝叶斯分类器

目录

贝叶斯公式

极大似然估计

通俗理解什么是似然

生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念

计算思路

示例

判别式模型 (Discriminative Models)

概念

计算思路

示例

朴素贝叶斯分类器基本假设和计算

基本假设

计算

拉普拉斯修正


贝叶斯公式

  • 一种分类算法,根据概率来判断是哪个类别
  • 经常被用于文本分类
  • 输出结果是某个样本属于某个类别的概率

先验概率:根据以往的经验分析得到的概率,不需要样本数据,不受任何条件的影响。

后验概率:计算后验概率是朴素贝叶斯关键步骤

联合概率:P(A,B)几个事件同时发生的概率

相互独立:P(A,B)=P(A)*P(B)

贝叶斯公式描述了在给定条件下事件发生的后验概率。贝叶斯公式的一般形式如下:

朴素贝叶斯:假定特征之间相互独立的贝叶斯公式


极大似然估计

通俗理解什么是似然

基于已经确定的结果,来推测产生这个结果的可能环境,或环境中的某些参数。

例如抛硬币,以下是一个根据结果来判断事情本身性质的过程

已知观察结果是x的情况下推断sita
概率vs似然

极大似然估计: 利用已知的样本标记结果,反推最有可能导致这些样本出现的模型参数

具体来说,MLE 试图找到一组参数值,使得观测数据的概率最大。


生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念
  • 目标:学习特征 X 和标记 Y 的联合概率分布 P(X,Y)。
  • 应用:理解数据的生成机制,并能用于生成新数据。
计算思路
  1. 学习先验概率 P(Y),即标记 Y 的分布。(最大似然估计)
  2. 学习条件概率 P(X∣Y),即在给定标记 Y 下特征 X 的分布。
  3. 得到联合概率分布 P(X,Y): P(X,Y)=P(Y)P(X∣Y) 。
  4. 计算后验概率 P(Y∣X),即给定特征 X 时标记 Y 出现的概率。(贝叶斯定理)
示例
  • 朴素贝叶斯(Naive Bayes)

判别式模型 (Discriminative Models)

概念
  • 目标:直接学习条件概率分布P(Y∣X),即给定特征 X 时标记 Y 出现的概率。
  • 应用:主要用于分类和回归任务,不关注数据的生成过程。
计算思路
  • 直接从数据中学习决策边界或条件概率分布 P(Y∣X),而不需要了解 P(X) 或 P(Y)。
示例
  • 支持向量机(SVM)
  • 决策树(Decision Trees)
  • BP神经网络(Backpropagation Neural Networks)

朴素贝叶斯分类器基本假设和计算

基本假设

计算

① 估计类先验概率P(c):

② 为每个属性估计条件概率P(xi | c):

ps: 使用高斯分布 来估计连续特征的条件概率

③ 计算后验概率

拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出 现问题,. 比如"敲声=清脆"测试例,训练集中没有该样例,因此连 乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是 "好瓜=否",这显然不合理。

拉普拉斯修正通过向每个可能的特征值添加一个小的常数值来避免概率为零的问题。具体来说,它假设每个类别下的每个特征值至少出现了一次。这样可以确保即使某个特征值在训练集中从未出现过,其条件概率也不会为零。

假设我们有一个特征"敲声",它可以取三个不同的值:"浊响"、"沉闷"和"清脆"。如果我们发现训练集中没有"好瓜"类别下"敲声=清脆"的样例,那么不使用拉普拉斯修正的情况下,P(清脆∣好瓜=是) 将为零。

使用拉普拉斯修正后,计算变为:

注意其他特征也要改变

相关推荐
夏鹏今天学习了吗3 分钟前
【LeetCode热题100(82/100)】单词拆分
算法·leetcode·职场和发展
数科云9 分钟前
AI提示词(Prompt)入门:什么是Prompt?为什么要写好Prompt?
人工智能·aigc·ai写作·ai工具集·最新ai资讯
Devlive 开源社区11 分钟前
技术日报|Claude Code超级能力库superpowers登顶日增1538星,自主AI循环ralph爆火登榜第二
人工智能
mit6.8241 小时前
mysql exe
算法
软件供应链安全指南1 小时前
灵脉 IAST 5.4 升级:双轮驱动 AI 漏洞治理与业务逻辑漏洞精准检测
人工智能·安全
lanmengyiyu1 小时前
单塔和双塔的区别和共同点
人工智能·双塔模型·网络结构·单塔模型
微光闪现1 小时前
AI识别宠物焦虑、紧张和晕车行为,是否已经具备实际可行性?
大数据·人工智能·宠物
2501_901147831 小时前
动态规划在整除子集问题中的应用与高性能实现分析
算法·职场和发展·动态规划
技术小黑屋_1 小时前
用好Few-shot Prompting,AI 准确率提升100%
人工智能
中草药z1 小时前
【嵌入模型】概念、应用与两大 AI 开源社区(Hugging Face / 魔塔)
人工智能·算法·机器学习·数据集·向量·嵌入模型