分类算法——文章分类(五)

文章分类计算

  • 计算结果
c 复制代码
P(C|Chinese,Chinese,Chinese,Tokyo,Japan)-->P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C)/P(Chinese, Chinese, Chinese, Tokyo, Japan)
P(Chinese|C)=5/8
P(Tokyo|C)= 0
P(Japan|C)= 0

思考:我们计算出来某个概率为0,合适吗?

4拉普拉斯平滑系数

目的:防止计算出的分类概率为0

c 复制代码
P(Chinese|C)=(5+1)/(8+1*6)=6/14=3/7
P(Tokyo|C)=(0+1)/(8+1*6)= 1/14
P(JapanC)=(0+1)/(8+1*6)=1/14

API

  • sklearn.naive_bayes.MultinomialNB(alpha=1.0)
    • 朴素贝叶斯分类
    • alpha:拉普拉斯平滑系数

案例:20类新闻分类


1 步骤分析

  • 进行数据集的分割
  • TFIDF进行的特征抽取
    • 将文章字符串进行单词抽取
  • 朴素贝叶斯预测

2代码


朴素贝叶斯算法总结

  • 优点:
    • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
    • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
    • 分类准确度高,速度快。
  • 缺点:
    • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。

总结

条件概率、联合概率计算方式与特征独立的关系

贝叶斯公式的计算

相关推荐
测试员周周19 分钟前
【Appium 系列】第18节-重试与容错 — 移动端测试的稳定性保障
人工智能·python·功能测试·ui·单元测试·appium·测试用例
l1t41 分钟前
Hy-MT2-1.8B总结的pgvector 0.8.2解决了并行HNSW索引构建漏洞
数据库·人工智能·postgresql
太华41 分钟前
学习AI Agent编程-第二天-LangGraph ReAct模式实现
人工智能
dayuOK630744 分钟前
从“爆款复刻”到“个性化创作”:AI辅助写作的技术挑战与演进方向
人工智能·职场和发展·自动化·新媒体运营·媒体
Raink老师1 小时前
【AI面试临阵磨枪-58】AI 生成内容合规、版权、审核机制设计
人工智能·面试·职场和发展
lizhihai_991 小时前
股市学习心得-与英伟达核心 PCB 相关的八家关联企业
大数据·人工智能·学习
嗝o゚1 小时前
昇腾CANN ops-nn 仓的 Activation 算子:不只是 ReLU
人工智能·cann·ops-nn
thubier(段新建)1 小时前
从需求到上线:需求→业务→架构→功能→实现 全链路落地方法论
人工智能·架构
北辰alk1 小时前
claude code安装教程,一文读懂。
人工智能
AskHarries1 小时前
Product Hunt 挖项目方法:如何从榜单里找到真正值得做的产品
人工智能