贝叶斯笔记

核心思想

  1. 贝叶斯定理

    逆向概率:P(类别|特征) = P(特征|类别)·P(类别) / P(特征)

    其中 P(特征) 在比较不同类别时可忽略,因此:

    P(类别|特征) ∝ P(类别)·P(特征|类别)

  2. "朴素"假设

    特征之间条件独立,因此:

    P(特征集合|类别) = ∏ᵢ P(特征ᵢ|类别)

二、典型示例

  1. 拼写纠正

    观测到错误单词 D,候选单词 h 的得分:score(h) = P(h)·P(D|h)

    P(h):单词先验频率;P(D|h):打错成 D 的概率(编辑距离模型)。

    选得分最高的 h 作为纠正结果。

  2. 垃圾邮件过滤

    邮件 D = {w₁, w₂, ..., wₙ}

    P(h⁺|D) ∝ P(h⁺) ∏ᵢ P(wᵢ|h⁺)

    P(h⁻|D) ∝ P(h⁻) ∏ᵢ P(wᵢ|h⁻)

    比较两者大小即可判定是否垃圾邮件。

三、三种常用模型

表格

复制

模型 适用特征类型 sklearn 类 关键参数说明
多项式 离散计数(如词频) MultinomialNB alpha:拉普拉斯平滑;fit_prior:是否学习先验
高斯 连续数值 GaussianNB priors:自定义先验
伯努利 0/1 布尔变量 BernoulliNB binarize:二值化阈值

四、sklearn 通用接口

fit(X, y) 训练

predict(X) 预测类别

predict_proba(X) 预测各类别概率

score(X, y) 准确率评估

相关推荐
鱼骨不是鱼翅4 小时前
机器学习(1)-----基础概念
人工智能·机器学习
xiao5kou4chang6kai44 小时前
蒸散发与光合作用阻抗理论 → ArcGIS自动化 → 区域ET/GPP产品融合
人工智能·蒸散发·植被生产力估算·penman-monteith
cd_949217214 小时前
骁龙与F1的故事:一场连接与速度的深度对话
人工智能
新加坡内哥谈技术5 小时前
大语言模型的上下文工程指南
人工智能
Gofarlic_OMS5 小时前
装备制造企业Fluent许可证成本分点典型案例
java·大数据·开发语言·人工智能·自动化·制造
汀、人工智能5 小时前
[特殊字符] 第57课:搜索旋转排序数组
数据结构·算法·数据库架构·图论·bfs·搜索旋转排序数组
2501_948114245 小时前
DeepSeek V4 全面实测:万亿参数开源模型的工程落地与成本推演
人工智能·ai·开源
倦王5 小时前
力扣日刷47
算法·leetcode·职场和发展
MicroTech20255 小时前
突破量子数据加载瓶颈,MLGO微算法科技推出面向大规模量子计算的分治态制备技术
科技·算法·量子计算
程序员雷欧5 小时前
大模型应用开发学习第八天
大数据·人工智能·学习