学习笔记二十九:贝叶斯决策论

1. 基本概念

1.1 贝叶斯决策论的定义

贝叶斯决策论(Bayesian Decision Theory)

概率框架下实施决策的基本方法。

分类任务中的贝叶斯决策论

在理想情况下,当所有相关概率都已知时,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

基本假设

假设有 NNN 种可能的类别标记,即 Y={c1,c2,...,cN}\mathcal{Y} = \{c_1, c_2, \ldots, c_N\}Y={c1,c2,...,cN}。

1.2 误判损失

误判损失 λij\lambda_{ij}λij

将一个真实标记为 cjc_jcj 的样本误分类为 cic_ici 所产生的损失。

0/1损失函数

若目标是最小化分类错误率,则误判损失可写为:

λij={0,if i=j1,otherwise\lambda_{ij} = \begin{cases} 0, & \text{if } i = j \\ 1, & \text{otherwise} \end{cases}λij={0,1,if i=jotherwise

即正确分类损失为0,错误分类损失为1。

1.3 条件风险

条件风险(Conditional Risk)

基于后验概率 P(cj∣x)P(c_j | x)P(cj∣x),可获得将样本 xxx 分类为 cic_ici 所产生的期望损失,即在样本 xxx 上的条件风险:

R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i | x) = \sum_{j=1}^{N} \lambda_{ij} P(c_j | x)R(ci∣x)=j=1∑NλijP(cj∣x)

条件风险的含义

条件风险表示在给定样本 xxx 的情况下,将 xxx 分类为 cic_ici 的期望损失。

1.4 总体风险

总体风险(Overall Risk)

寻找一个判定准则 h:X→Yh: \mathcal{X} \to \mathcal{Y}h:X→Y 以最小化总体风险:

R(h)=Ex[R(h(x)∣x)]R(h) = \mathbb{E}_x [R(h(x) | x)]R(h)=Ex[R(h(x)∣x)]

总体风险的含义

总体风险表示判定准则 hhh 在所有样本上的平均期望损失。

1.5 贝叶斯判定准则

贝叶斯判定准则(Bayes Decision Rule)

对每个样本 xxx,若 hhh 能最小化条件风险 R(h(x)∣x)R(h(x) | x)R(h(x)∣x),则总体风险 R(h)R(h)R(h) 也将被最小化。为最小化总体风险,只需在每个样本上选择那个能使条件风险 R(c∣x)R(c | x)R(c∣x) 最小的类别标记:

h∗(x)=arg⁡min⁡c∈YR(c∣x)h^*(x) = \arg\min_{c \in \mathcal{Y}} R(c | x)h∗(x)=argc∈YminR(c∣x)

贝叶斯最优分类器
h∗h^*h∗ 称为贝叶斯最优分类器 (Bayes Optimal Classifier),与之对应的总体风险 R(h∗)R(h^*)R(h∗) 称为贝叶斯风险(Bayes Risk)。

贝叶斯风险的意义
1−R(h∗)1 - R(h^*)1−R(h∗) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。

2. 具体方法

2.1 最小化分类错误率

0/1损失下的条件风险

当使用0/1损失函数时,条件风险为:

R(c∣x)=1−P(c∣x)R(c | x) = 1 - P(c | x)R(c∣x)=1−P(c∣x)

最小化分类错误率的贝叶斯最优分类器

此时,最小化分类错误率的贝叶斯最优分类器为:

h∗(x)=arg⁡max⁡c∈YP(c∣x)h^*(x) = \arg\max_{c \in \mathcal{Y}} P(c | x)h∗(x)=argc∈YmaxP(c∣x)

直观理解

即对每个样本 xxx,选择能使后验概率 P(c∣x)P(c | x)P(c∣x) 最大的类别标记。这符合直觉:选择最可能的类别。

2.2 后验概率的估计

核心问题

欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P(c∣x)P(c | x)P(c∣x)。然而,在现实任务中这通常难以直接获得。

机器学习的目标

从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c∣x)P(c | x)P(c∣x)。

两种建模策略

  1. 判别式模型(Discriminative Models)

    • 给定 xxx,可通过直接建模 P(c∣x)P(c | x)P(c∣x) 来预测 ccc
    • 例如:决策树、BP神经网络、支持向量机等
  2. 生成式模型(Generative Models)

    • 先对联合概率分布 P(x,c)P(x, c)P(x,c) 建模,然后再由此获得 P(c∣x)P(c | x)P(c∣x)
    • 例如:朴素贝叶斯分类器等

2.3 贝叶斯定理

贝叶斯定理

基于贝叶斯定理,P(c∣x)P(c | x)P(c∣x) 可写为:

P(c∣x)=P(x,c)P(x)=P(c)P(x∣c)P(x)P(c | x) = \frac{P(x, c)}{P(x)} = \frac{P(c) P(x | c)}{P(x)}P(c∣x)=P(x)P(x,c)=P(x)P(c)P(x∣c)

各项的含义

  • P(c)P(c)P(c):类"先验"概率

    • 表达了样本空间中各类样本所占的比例
    • 根据大数定律,当训练集包含充足的独立同分布样本时,P(c)P(c)P(c) 可通过各类样本出现的频率来进行估计
  • P(x∣c)P(x | c)P(x∣c) :样本 xxx 相对于类标记 ccc 的类条件概率,或称为"似然"

  • P(x)P(x)P(x):用于归一化的"证据"因子

    • 对给定样本 xxx,证据因子 P(x)P(x)P(x) 与类标记 ccc 无关
    • 因此估计 P(c∣x)P(c | x)P(c∣x) 的问题就转化为如何基于训练数据 DDD 来估计先验 P(c)P(c)P(c) 和似然 P(x∣c)P(x | c)P(x∣c)

2.4 估计类条件概率的困难

类条件概率的特点

类条件概率 P(x∣c)P(x | c)P(x∣c) 涉及关于 xxx 所有属性的联合概率。

估计困难

直接根据样本出现的频率来估计将会遇到严重的困难。

具体例子

假设样本的 ddd 个属性都是二值的,则样本空间将有 2d2^d2d 种可能的取值。在现实应用中,这个值往往远大于训练样本数 mmm。

核心问题

很多样本取值在训练集中根本没有出现,"未被观测到"与"出现概率为零"通常是不同的。

解决方案

需要采用其他方法来估计类条件概率,例如:

  • 假设属性之间相互独立(朴素贝叶斯)
  • 使用参数估计方法
  • 使用非参数估计方法

3. 总结

贝叶斯决策论的核心思想

  1. 概率框架:在概率框架下实施决策,基于概率和误判损失选择最优类别标记
  2. 最小化风险:通过最小化条件风险来最小化总体风险
  3. 理论最优:贝叶斯最优分类器提供了分类器性能的理论上限

贝叶斯判定准则

  • 一般形式:选择使条件风险最小的类别标记
  • 0/1损失下:选择使后验概率最大的类别标记
  • 理论保证 :1−R(h∗)1 - R(h^*)1−R(h∗) 反映了分类器所能达到的最好性能

后验概率的估计

  • 判别式模型 :直接建模 P(c∣x)P(c | x)P(c∣x)
  • 生成式模型 :通过建模 P(x,c)P(x, c)P(x,c) 来获得 P(c∣x)P(c | x)P(c∣x)
  • 贝叶斯定理:将后验概率分解为先验概率和类条件概率

实际应用中的挑战

  • 类条件概率估计困难:样本空间往往远大于训练样本数
  • 需要假设或近似:通常需要假设属性独立性或使用其他估计方法
  • 理论指导实践:贝叶斯决策论为实际分类方法提供了理论指导

贝叶斯决策论的意义

  • 为分类问题提供了概率框架下的理论基础
  • 明确了最优分类器的定义和性质
  • 指导了判别式模型和生成式模型的设计
  • 为评估分类器性能提供了理论基准
相关推荐
陈天伟教授15 小时前
人工智能应用- 语言理解:06.大语言模型
人工智能·语言模型·自然语言处理
海心焱15 小时前
安全之盾:深度解析 MCP 如何缝合企业级 SSO 身份验证体系,构建可信 AI 数据通道
人工智能·安全
2501_9453184915 小时前
AI证书能否作为招聘/培训标准?2026最新
人工智能
2601_9491465315 小时前
Python语音通知接口接入教程:开发者快速集成AI语音API的脚本实现
人工智能·python·语音识别
韦东东15 小时前
RAGFlow v0.20的Agent重大更新:text2sql的Agent案例测试
人工智能·大模型·agent·text2sql·ragflow
人工智能AI技术15 小时前
DeepSeek-OCR 2实战:让AI像人一样“看懂”复杂文档
人工智能
OpenBayes15 小时前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
冰糖猕猴桃16 小时前
【AI】把“大杂烩抽取”拆成多步推理:一个从单提示到多阶段管线的实践案例
大数据·人工智能·ai·提示词·多步推理
PPIO派欧云16 小时前
PPIO上线GLM-OCR:0.9B参数SOTA性能,支持一键部署
人工智能·ai·大模型·ocr·智谱
雨大王51216 小时前
怎么打造一个能自我进化的制造数字基座?
人工智能·汽车·制造