python学智能算法(十四)|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试

【1】引用

前序学习文章中,已经对拉普拉斯平滑和简单二元分类进行了初步探索,相关文章链接为:

python学智能算法(十二)|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客

python学智能算法(十三)|机器学习朴素贝叶斯方法进阶-简单二元分类-CSDN博客

在实践应用中也会发现,朴素贝叶斯方法还能对文本进行分类,今天的学习目标就是学习简单的文本操作技巧,需要使用sklearn里面的CountVectorizer包。

【2】代码学习

首先是引入必要的模块或者说库:

python 复制代码
# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

输入待处理的文本:

python 复制代码
# 单个文档
document = ["Python programming is fun and useful for data science."]

这里只有一个句子:Python programming is fun and useful for data science.

直接创建一个文本处理器:

python 复制代码
# 创建向量化器
vectorizer = CountVectorizer()

CountVectorizer是 scikit-learn 库中用于文本向量化的工具,将文本转换为词频矩阵。CountVectorizer()满足默认配置:

  • 自动将文本转为小写。
  • 按空格分词。
  • 不处理停用词。
  • 只考虑单个词。

实际上,vectorizer在这里被定义为一个工具,通过这个工具才可以调用具体的文本处理命令。

然后就是:

python 复制代码
X = vectorizer.fit_transform(document)

这里的fit_transform是由fit和transform两个命令合并在一起的快捷操作:

fit命令的作用是分析文本中有哪些词;

transform命令的作用是将文本转化为词频矩阵,有合并同类项的功能。

CountVectorizer()是类的构造函数,vectorizer是实例,fit和transform是实例方法。

然后是查看词汇表操作:

python 复制代码
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

这里的vectorizer.get_feature_names_out()执行后,会按照各个词汇首字母的顺序将组成句子的词依次输出,比如上方的句子Python programming is fun and useful for data science会输出为:['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']。

最后的向量输出为:

python 复制代码
# 查看向量表示
print("向量表示:", X.toarray())

X.toarray()本质上是输出各个词在句子中出现的次数。

比如上方的句子Python programming is fun and useful for data science,X.toarray()会输出一系列1,因为每个单词出现的频次都是1。

完整代码为:

python 复制代码
# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

# 单个文档
document = ["Python programming is fun and useful for data science."]

# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=',vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=',X)
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

# 查看向量表示
print("向量表示:", X.toarray())

代码运行后的输出为:

vetorizer= CountVectorizer()

X= (0, 6) 1

(0, 5) 1

(0, 4) 1

(0, 3) 1

(0, 0) 1

(0, 8) 1

(0, 2) 1

(0, 1) 1

(0, 7) 1

词汇表: ['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']

向量表示: [[1 1 1 1 1 1 1 1 1]]

【3】代码测试

实际上要想测试代码非常简单,只需要改变初始句子即可,比如把句子改成:

python 复制代码
# 单个文档
document = ["Python programming is fun and useful for data science and math."]

此时的输出就会变成:

词汇表: ['and' 'data' 'for' 'fun' 'is' 'math' 'programming' 'python' 'science'

'useful']

向量表示: [[2 1 1 1 1 1 1 1 1 1]]

显然,出现了两个and后,向量表示的频次会自动增加。

【4】细节说明

代码中文本后面的点号不是必须的。

【5】总结

学习了CountVectorizer文本处理的简单应用。

相关推荐
缝艺智研社1 分钟前
2026年 自动化缝纫模板机 机器人工作站市场洞察与排名
大数据·网络·人工智能·自动化·制造·新人首发·自动化缝纫机
guo_xiao_xiao_6 分钟前
YOLOv11野生动物园大型猫科动物目标检测数据集-8075张-Animal-detection-yolov8-1
人工智能·yolo·目标检测
沫儿笙6 分钟前
机器人二保焊焊接节气装置
人工智能·机器人
dingzd958 分钟前
Pinterest自动化投放升级后跨境品牌如何提高素材转化效率
大数据·人工智能·新媒体运营·产品运营·营销策略
ws20190713 分钟前
变革前夜:AUTO TECH China 2026 将展示汽车供应链的深度重构
人工智能·科技·重构·汽车
深科信项目申报助手16 分钟前
2026年高新技术企业申报细则
大数据·人工智能·经验分享·其他
BB8=_=NiMotion19 分钟前
一体式伺服电机在挪车机器人的应用
人工智能
光锥智能27 分钟前
买即梦送豆包?拆解字节AI收费的密码
人工智能
北京宇音天下27 分钟前
骑行升级!VTX316语音合成芯片,让电动车秒变“智能出行伙伴”
人工智能·语音识别
脉动数据行情28 分钟前
Python 实现融通金行情数据对接(实时推送 + K 线 + 产品列表)
开发语言·python