贝叶斯笔记

核心思想

  1. 贝叶斯定理

    逆向概率:P(类别|特征) = P(特征|类别)·P(类别) / P(特征)

    其中 P(特征) 在比较不同类别时可忽略,因此:

    P(类别|特征) ∝ P(类别)·P(特征|类别)

  2. "朴素"假设

    特征之间条件独立,因此:

    P(特征集合|类别) = ∏ᵢ P(特征ᵢ|类别)

二、典型示例

  1. 拼写纠正

    观测到错误单词 D,候选单词 h 的得分:score(h) = P(h)·P(D|h)

    P(h):单词先验频率;P(D|h):打错成 D 的概率(编辑距离模型)。

    选得分最高的 h 作为纠正结果。

  2. 垃圾邮件过滤

    邮件 D = {w₁, w₂, ..., wₙ}

    P(h⁺|D) ∝ P(h⁺) ∏ᵢ P(wᵢ|h⁺)

    P(h⁻|D) ∝ P(h⁻) ∏ᵢ P(wᵢ|h⁻)

    比较两者大小即可判定是否垃圾邮件。

三、三种常用模型

表格

复制

模型 适用特征类型 sklearn 类 关键参数说明
多项式 离散计数(如词频) MultinomialNB alpha:拉普拉斯平滑;fit_prior:是否学习先验
高斯 连续数值 GaussianNB priors:自定义先验
伯努利 0/1 布尔变量 BernoulliNB binarize:二值化阈值

四、sklearn 通用接口

fit(X, y) 训练

predict(X) 预测类别

predict_proba(X) 预测各类别概率

score(X, y) 准确率评估

相关推荐
To_OC4 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
冬奇Lab6 小时前
每日一个开源项目(第139篇):Voicebox - 本地运行的开源 ElevenLabs 替代品
人工智能·开源·资讯
冬奇Lab6 小时前
Skill 系列(03):Skill 设计范式——5 个模式让输出从混沌到可预测
人工智能·开源·agent
IT_陈寒8 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
To_OC8 小时前
LC 1 两数之和:面试第一道必考题,暴力解法直接被面试官 pass
javascript·算法·leetcode
大模型真好玩10 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两10 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
LaiYoung_10 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT13 小时前
怎么做才不会被 AI 替代?
人工智能·程序员