【朴素贝叶斯-新闻主题分类】

朴素贝叶斯对新闻进行分类

朴素贝叶斯算法是一种常用的文本分类方法,特别适用于自然语言处理任务,如新闻分类。在这篇博客中,我们将使用Python的scikit-learn库来实现朴素贝叶斯算法,并将其应用于新闻分类任务。

数据准备

首先,我们需要下载新闻数据集并进行数据准备。在这里,我们使用scikit-learn中的20个新闻组数据集,其中包含20个不同主题的新闻文本。我们从互联网上下载所有数据,并将其划分为训练集和测试集。

python 复制代码
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split

# 从互联网上下载所有数据
news = fetch_20newsgroups(subset='all')

# 进行数据分割
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)

特征抽取

在进行文本分类任务时,我们需要将文本数据转换为可供机器学习算法使用的数字特征。这里我们使用TfidfVectorizer来将文本转换为TF-IDF特征向量,它考虑了词频和逆文档频率,能够更好地表示词的重要性。

python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer

# 对数据集进行特征抽取
transformer = TfidfVectorizer()
x_train = transformer.fit_transform(x_train)
x_test = transformer.transform(x_test)

构建朴素贝叶斯分类器

接下来,我们使用朴素贝叶斯算法来构建分类器。在scikit-learn中,我们可以使用MultinomialNB类来实现多项式朴素贝叶斯分类器。我们使用默认配置初始化分类器,并使用训练数据进行拟合。

python 复制代码
from sklearn.naive_bayes import MultinomialNB

# 使用默认配置初始化朴素贝叶斯分类器
estimator = MultinomialNB()
estimator.fit(x_train, y_train)

模型评估

现在,我们的朴素贝叶斯分类器已经训练好了,接下来我们使用测试数据进行预测,并对分类器性能进行评估。我们可以使用准确率来衡量分类器在测试数据上的性能。

python 复制代码
# 进行模型评估
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)

# 计算准确率
score = estimator.score(x_test, y_test)
print("准确率为:\n", score)
相关推荐
ㄟ留恋さ寂寞1 分钟前
Golang格式化输出占位符都有什么_Golang fmt占位符教程【通俗】
jvm·数据库·python
ʜᴇɴʀʏ2 分钟前
AAAI 2025 | DuSSS:基于双语义相似性监督的半监督医学图像分割
论文阅读·机器学习
努力努力再努力wz8 分钟前
【C++高阶数据结构系列】:时间轮定时器详解:原理分析与代码实现,带你从零手撕时间轮!(附时间轮的实现源码)
c语言·开发语言·数据结构·c++·qt·算法·ui
颖火虫盟主13 分钟前
Hello World MCP Server 实现总结
java·前端·python
Gigavision16 分钟前
rPPGMamba:面向 PURE-UBFC-MMPD 跨被试远程生理感知的 Mamba 时序建模方案
python·深度学习·rppg
海天一色y27 分钟前
本地部署Qwen3-32B
python·ai
mmz120731 分钟前
广搜题目练习(c++)
c++·算法
YuanDaima204831 分钟前
贪心算法基础原理与题目说明
数据结构·人工智能·python·算法·贪心算法·手撕代码
NashSKY33 分钟前
波束成形MVDR (最小方差无失真响应) 算法数学原理解析
算法·矩阵
程序员果子43 分钟前
LangGraph :构建复杂有状态智能体的核心框架
人工智能·python·架构·langchain·prompt·ai编程·langgraph