贝叶斯笔记

核心思想

  1. 贝叶斯定理

    逆向概率:P(类别|特征) = P(特征|类别)·P(类别) / P(特征)

    其中 P(特征) 在比较不同类别时可忽略,因此:

    P(类别|特征) ∝ P(类别)·P(特征|类别)

  2. "朴素"假设

    特征之间条件独立,因此:

    P(特征集合|类别) = ∏ᵢ P(特征ᵢ|类别)

二、典型示例

  1. 拼写纠正

    观测到错误单词 D,候选单词 h 的得分:score(h) = P(h)·P(D|h)

    P(h):单词先验频率;P(D|h):打错成 D 的概率(编辑距离模型)。

    选得分最高的 h 作为纠正结果。

  2. 垃圾邮件过滤

    邮件 D = {w₁, w₂, ..., wₙ}

    P(h⁺|D) ∝ P(h⁺) ∏ᵢ P(wᵢ|h⁺)

    P(h⁻|D) ∝ P(h⁻) ∏ᵢ P(wᵢ|h⁻)

    比较两者大小即可判定是否垃圾邮件。

三、三种常用模型

表格

复制

模型 适用特征类型 sklearn 类 关键参数说明
多项式 离散计数(如词频) MultinomialNB alpha:拉普拉斯平滑;fit_prior:是否学习先验
高斯 连续数值 GaussianNB priors:自定义先验
伯努利 0/1 布尔变量 BernoulliNB binarize:二值化阈值

四、sklearn 通用接口

fit(X, y) 训练

predict(X) 预测类别

predict_proba(X) 预测各类别概率

score(X, y) 准确率评估

相关推荐
却道天凉_好个秋5 小时前
OpenCV(三):保存文件
人工智能·opencv·计算机视觉
aneasystone本尊5 小时前
深入 Dify 应用的会话流程之流式处理
人工智能
深栈5 小时前
机器学习:决策树
人工智能·python·决策树·机器学习·sklearn
琼羽1095 小时前
第十七周-通用量子门与Deutsch-Jozsa算法
算法·量子计算
旺小仔.5 小时前
位运算专题
算法
欧阳码农6 小时前
忍了一年多,我做了一个工具将文章一键发布到多个平台
前端·人工智能·后端
IT_陈寒6 小时前
Python性能优化:5个让你的代码提速300%的NumPy高级技巧
前端·人工智能·后端
飞哥数智坊6 小时前
AI 写代码总跑偏?试试费曼学习法:让它先复述一遍!
人工智能·ai编程
xwl12126 小时前
10.6 作业
数据结构·算法
MYX_3096 小时前
第二章 预备知识(线性代数)
python·线性代数·机器学习