分类算法——文章分类(五)

文章分类计算

  • 计算结果
c 复制代码
P(C|Chinese,Chinese,Chinese,Tokyo,Japan)-->P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C)/P(Chinese, Chinese, Chinese, Tokyo, Japan)
P(Chinese|C)=5/8
P(Tokyo|C)= 0
P(Japan|C)= 0

思考:我们计算出来某个概率为0,合适吗?

4拉普拉斯平滑系数

目的:防止计算出的分类概率为0

c 复制代码
P(Chinese|C)=(5+1)/(8+1*6)=6/14=3/7
P(Tokyo|C)=(0+1)/(8+1*6)= 1/14
P(JapanC)=(0+1)/(8+1*6)=1/14

API

  • sklearn.naive_bayes.MultinomialNB(alpha=1.0)
    • 朴素贝叶斯分类
    • alpha:拉普拉斯平滑系数

案例:20类新闻分类


1 步骤分析

  • 进行数据集的分割
  • TFIDF进行的特征抽取
    • 将文章字符串进行单词抽取
  • 朴素贝叶斯预测

2代码


朴素贝叶斯算法总结

  • 优点:
    • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
    • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
    • 分类准确度高,速度快。
  • 缺点:
    • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。

总结

条件概率、联合概率计算方式与特征独立的关系

贝叶斯公式的计算

相关推荐
下班走回家2 分钟前
Qwen2.5 模型架构解读:国产大模型的进化
人工智能·架构
皮皮蟹虾饺2 分钟前
MiniMind 预训练详解:从零训练一个 64M 参数的语言模型
人工智能·语言模型·自然语言处理
跟风舞烟学编程5 分钟前
Hermes Agent 从入门到企业实战-01:Hermes-Agent核心架构
人工智能·ai agent·hermes agent·自进化 agent
深圳市晶科鑫实业有限公司8 分钟前
国产TCXO温补晶振是否可以完美替代欧美日系主流型号
人工智能·stm32·单片机·物联网·51单片机·信息与通信
cyyt8 分钟前
深度学习周报(6.8~6.14)
人工智能·深度学习
带娃的IT创业者8 分钟前
深度解析:当 MLX 遇上视觉语言模型,Mac 本地推理的新范式
人工智能·macos·语言模型·视觉语言模型·apple silicon·mlx·mac本地推理
沪漂阿龙8 分钟前
LangChain 系列之Tools:让大模型真正连接业务系统
人工智能·python·langchain
竹叶青lvye9 分钟前
ROS2自定义接口消息、参数服务案例
人工智能·ros2·具身智能·接口消息·参数服务
AI科技星11 分钟前
数术工坊·第八卷 大道归一录・番外・下篇 零界封神・万法归元终章
网络·人工智能·算法·几何学·拓扑学