分类算法——文章分类(五)

文章分类计算

  • 计算结果
c 复制代码
P(C|Chinese,Chinese,Chinese,Tokyo,Japan)-->P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C)/P(Chinese, Chinese, Chinese, Tokyo, Japan)
P(Chinese|C)=5/8
P(Tokyo|C)= 0
P(Japan|C)= 0

思考:我们计算出来某个概率为0,合适吗?

4拉普拉斯平滑系数

目的:防止计算出的分类概率为0

c 复制代码
P(Chinese|C)=(5+1)/(8+1*6)=6/14=3/7
P(Tokyo|C)=(0+1)/(8+1*6)= 1/14
P(JapanC)=(0+1)/(8+1*6)=1/14

API

  • sklearn.naive_bayes.MultinomialNB(alpha=1.0)
    • 朴素贝叶斯分类
    • alpha:拉普拉斯平滑系数

案例:20类新闻分类


1 步骤分析

  • 进行数据集的分割
  • TFIDF进行的特征抽取
    • 将文章字符串进行单词抽取
  • 朴素贝叶斯预测

2代码


朴素贝叶斯算法总结

  • 优点:
    • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
    • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
    • 分类准确度高,速度快。
  • 缺点:
    • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。

总结

条件概率、联合概率计算方式与特征独立的关系

贝叶斯公式的计算

相关推荐
keep_learning1113 分钟前
Z-Image模型架构全解析
人工智能·算法·计算机视觉·大模型·多模态
雅欣鱼子酱9 分钟前
Type-C接口小家电 PD诱骗电压方案
人工智能·芯片·电子元器件
O561 6O623O7 安徽正华露11 分钟前
露,足趾容积测量仪 足趾肿胀测量仪
人工智能
FL162386312913 分钟前
电力场景输电线路电缆线异常连接处缺陷金属部件腐蚀检测数据集VOC+YOLO格式3429张5类别
人工智能·yolo·机器学习
乾元13 分钟前
数据中心流量工程(TE)优化:当 AI 成为解决“维度诅咒”的唯一操纵杆
运维·服务器·网络·人工智能·架构·自动化
2501_9247949014 分钟前
从“技术盆景”到“生产力土壤”:AI智能体如何重塑企业运营逻辑
人工智能
小陈phd17 分钟前
大语言模型实战(九)——从零到一:搭建基于 MCP 的 RAG 系统完整教程
人工智能·语言模型·自然语言处理
蓝鲨硬科技19 分钟前
Physical AI第一股五一视界,正式登陆港交所!
人工智能
优爱蛋白20 分钟前
SCF His Tag 重组蛋白:c-Kit受体信号研究与干细胞培养应用的关键试剂
前端·人工智能·健康医疗
易基因科技27 分钟前
易基因:PNAS:南方科技大学朱健康团队多组学揭示协同调控植物DNA甲基化与Polycomb沉默的表观遗传新机制
经验分享·数据挖掘·生物学·生物信息学·生信分析