分类算法——文章分类(五)

文章分类计算

  • 计算结果
c 复制代码
P(C|Chinese,Chinese,Chinese,Tokyo,Japan)-->P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C)/P(Chinese, Chinese, Chinese, Tokyo, Japan)
P(Chinese|C)=5/8
P(Tokyo|C)= 0
P(Japan|C)= 0

思考:我们计算出来某个概率为0,合适吗?

4拉普拉斯平滑系数

目的:防止计算出的分类概率为0

c 复制代码
P(Chinese|C)=(5+1)/(8+1*6)=6/14=3/7
P(Tokyo|C)=(0+1)/(8+1*6)= 1/14
P(JapanC)=(0+1)/(8+1*6)=1/14

API

  • sklearn.naive_bayes.MultinomialNB(alpha=1.0)
    • 朴素贝叶斯分类
    • alpha:拉普拉斯平滑系数

案例:20类新闻分类


1 步骤分析

  • 进行数据集的分割
  • TFIDF进行的特征抽取
    • 将文章字符串进行单词抽取
  • 朴素贝叶斯预测

2代码


朴素贝叶斯算法总结

  • 优点:
    • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
    • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
    • 分类准确度高,速度快。
  • 缺点:
    • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。

总结

条件概率、联合概率计算方式与特征独立的关系

贝叶斯公式的计算

相关推荐
意法半导体STM32几秒前
【官方原创】一站式生成STM32N6的ExtMemLoader, FSBL, Appli的点灯工程 LAT1614
人工智能·stm32·单片机·嵌入式硬件·mcu·stm32n6
小付爱coding7 分钟前
AI Agent 思考模式
人工智能
diligence7 分钟前
Claude Code 配置 Chrome DevTools MCP 指南
人工智能
沈浩(种子思维作者)10 分钟前
梦境意识之谜——豆包补充
人工智能·python·量子计算
yunni817 分钟前
安全+智能双保障:企业级慧听AI本地化部署方案
人工智能·安全
Mintopia18 分钟前
容器化部署 Flux.1-dev 文生图模型应用 | 共绩算力
人工智能·llm·图片资源
liliangcsdn18 分钟前
LDM潜在扩散模型的探索
人工智能·深度学习
Fabarta技术团队19 分钟前
枫清科技出席AI4S创新论坛——生态共建,智驱AI+科研新体系
大数据·人工智能·科技
墨染天姬21 分钟前
【AI】2025 个人知识库工具排名
人工智能
Biehmltym22 分钟前
【AI】04AI Aent:十分钟跑通LangGraph项目:调用llm+agent开发+langSmith使用
java·人工智能·langchain·langgraph