机器学习基础-贝叶斯分类器

目录

贝叶斯公式

极大似然估计

通俗理解什么是似然

生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念

计算思路

示例

判别式模型 (Discriminative Models)

概念

计算思路

示例

朴素贝叶斯分类器基本假设和计算

基本假设

计算

拉普拉斯修正


贝叶斯公式

  • 一种分类算法,根据概率来判断是哪个类别
  • 经常被用于文本分类
  • 输出结果是某个样本属于某个类别的概率

先验概率:根据以往的经验分析得到的概率,不需要样本数据,不受任何条件的影响。

后验概率:计算后验概率是朴素贝叶斯关键步骤

联合概率:P(A,B)几个事件同时发生的概率

相互独立:P(A,B)=P(A)*P(B)

贝叶斯公式描述了在给定条件下事件发生的后验概率。贝叶斯公式的一般形式如下:

朴素贝叶斯:假定特征之间相互独立的贝叶斯公式


极大似然估计

通俗理解什么是似然

基于已经确定的结果,来推测产生这个结果的可能环境,或环境中的某些参数。

例如抛硬币,以下是一个根据结果来判断事情本身性质的过程

已知观察结果是x的情况下推断sita
概率vs似然

极大似然估计: 利用已知的样本标记结果,反推最有可能导致这些样本出现的模型参数

具体来说,MLE 试图找到一组参数值,使得观测数据的概率最大。


生成式模型和判别式模型的概念

生成式模型 (Generative Models)

概念
  • 目标:学习特征 X 和标记 Y 的联合概率分布 P(X,Y)。
  • 应用:理解数据的生成机制,并能用于生成新数据。
计算思路
  1. 学习先验概率 P(Y),即标记 Y 的分布。(最大似然估计)
  2. 学习条件概率 P(X∣Y),即在给定标记 Y 下特征 X 的分布。
  3. 得到联合概率分布 P(X,Y): P(X,Y)=P(Y)P(X∣Y) 。
  4. 计算后验概率 P(Y∣X),即给定特征 X 时标记 Y 出现的概率。(贝叶斯定理)
示例
  • 朴素贝叶斯(Naive Bayes)

判别式模型 (Discriminative Models)

概念
  • 目标:直接学习条件概率分布P(Y∣X),即给定特征 X 时标记 Y 出现的概率。
  • 应用:主要用于分类和回归任务,不关注数据的生成过程。
计算思路
  • 直接从数据中学习决策边界或条件概率分布 P(Y∣X),而不需要了解 P(X) 或 P(Y)。
示例
  • 支持向量机(SVM)
  • 决策树(Decision Trees)
  • BP神经网络(Backpropagation Neural Networks)

朴素贝叶斯分类器基本假设和计算

基本假设

计算

① 估计类先验概率P(c):

② 为每个属性估计条件概率P(xi | c):

ps: 使用高斯分布 来估计连续特征的条件概率

③ 计算后验概率

拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出 现问题,. 比如"敲声=清脆"测试例,训练集中没有该样例,因此连 乘式计算的概率值为0,无论其他属性上明显像好瓜,分类结果都是 "好瓜=否",这显然不合理。

拉普拉斯修正通过向每个可能的特征值添加一个小的常数值来避免概率为零的问题。具体来说,它假设每个类别下的每个特征值至少出现了一次。这样可以确保即使某个特征值在训练集中从未出现过,其条件概率也不会为零。

假设我们有一个特征"敲声",它可以取三个不同的值:"浊响"、"沉闷"和"清脆"。如果我们发现训练集中没有"好瓜"类别下"敲声=清脆"的样例,那么不使用拉普拉斯修正的情况下,P(清脆∣好瓜=是) 将为零。

使用拉普拉斯修正后,计算变为:

注意其他特征也要改变

相关推荐
Together_CZ31 分钟前
BloombergGPT: A Large Language Model for Finance——面向金融领域的大语言模型
人工智能·语言模型·金融·finance·bloomberggpt·面向金融领域的大语言模型·金融大模型
asyxchenchong88833 分钟前
基于R语言的DICE模型实践技术应用
人工智能
AI大模型learner38 分钟前
探索Whisper:从原理到实际应用的解析
人工智能·深度学习·机器学习
gs801404 小时前
JuiceFS 详解:一款为云原生设计的高性能分布式文件系统
机器学习·云原生·对象存储·大数据分析·分布式文件系统·juicefs·高性能存储
风虎云龙科研服务器5 小时前
深度学习GPU服务器推荐:打造高效运算平台
服务器·人工智能·深度学习
石臻臻的杂货铺5 小时前
OpenAI CEO 奥特曼发长文《反思》
人工智能·chatgpt
说私域7 小时前
社群团购平台的运营模式革新:以开源AI智能名片链动2+1模式商城小程序为例
人工智能·小程序
说私域7 小时前
移动电商的崛起与革新:以开源AI智能名片2+1链动模式S2B2C商城小程序为例的深度剖析
人工智能·小程序
cxr8287 小时前
智能体(Agent)如何具备自我决策能力的机理与实现方法
人工智能·自然语言处理
wjm0410067 小时前
贪心算法概述
算法·贪心算法