python学智能算法(十五)|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理

【1】引言

前序学习进程中,已经学习CountVectorizer文本处理的简单技巧,先相关文章链接为:

python学智能算法(十四)|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客

此次继续深入,研究多文本的综合处理。

【2】代码测试

首先相对于单文本测试,直接将文本改成多行文本:

python 复制代码
# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

# 单个文档
document = ["Python programming is fun and useful for data science.",
            "Python is a great programming language for data science.",
            "Data science uses Python for machine learning and AI.",
            "AI and machine learning are fun with Python.",
            "AI is popular at this time."
            ]

# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=', vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=', X)
# 查看词汇表
print("词汇表:\n", vectorizer.get_feature_names_out())

# 查看向量表示
print("向量表示:\n", X.toarray())

尝试运行一下:

X= (0, 14) 1

(0, 13) 1

(0, 8) 1

(0, 6) 1

(0, 1) 1

(0, 18) 1

(0, 5) 1

(0, 4) 1

(0, 15) 1

(1, 14) 1

(1, 13) 1

(1, 8) 1

(1, 5) 1

(1, 4) 1

(1, 15) 1

(1, 7) 1

(1, 9) 1

(2, 14) 1

(2, 1) 1

(2, 5) 1

(2, 4) 1

(2, 15) 1

(2, 19) 1

(2, 11) 1

(2, 10) 1

(2, 0) 1

(3, 14) 1

(3, 6) 1

(3, 1) 1

(3, 11) 1

(3, 10) 1

(3, 0) 1

(3, 2) 1

(3, 20) 1

(4, 8) 1

(4, 0) 1

(4, 12) 1

(4, 3) 1

(4, 16) 1

(4, 17) 1

词汇表:

'ai' 'and' 'are' 'at' 'data' 'for' 'fun' 'great' 'is' 'language' 'learning' 'machine' 'popular' 'programming' 'python' 'science' 'this' 'time' 'useful' 'uses' 'with'

向量表示:

\[0 1 0 0 1 1 1 0 1 0 0 0 0 1 1 1 0 0 1 0 0

0 0 0 0 1 1 0 1 1 1 0 0 0 1 1 1 0 0 0 0 0

1 1 0 0 1 1 0 0 0 0 1 1 0 0 1 1 0 0 0 1 0

1 1 1 0 0 0 1 0 0 0 1 1 0 0 1 0 0 0 0 0 1

1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0\]

最开始的X出现"(0,14),1"解读:

0表示(Python programming is fun and useful for data science.)是第0行样本,实际上从1开始计数是第1行样本;

14表示样本中的第一个词,也就是Python,在按照所有文本中所有单词首字母顺序排列后,将位于第14号位置,实际上从1开始计数是第15个,后面的1表示Python这个词在第0行样本中出现了一次。

其余数据意义类似。

输出的词汇表是将所有文本中所有单词首字母顺序排列后获得的结果。

向量表示则按照行的形式,将每一行的列数都扩充或者说是广播到所有文本中所有单词合并同类项后的数量,所有单词合并同类项后刚好是17个数据,所以每一行都有17个数据,在对应行样本中未出现的词就会自动计数0。

【3】总结

使用CountVectorizer开展了多文简单测试。

相关推荐
lxmyzzs42 分钟前
【图像算法 - 21】慧眼识虫:基于深度学习与OpenCV的农田害虫智能识别系统
人工智能·深度学习·opencv·算法·yolo·目标检测·计算机视觉
Gloria_niki43 分钟前
机器学习之K 均值聚类算法
人工智能·机器学习
AI人工智能+1 小时前
表格识别技术:通过图像处理与深度学习,将非结构化表格转化为可编辑结构化数据,推动智能化发展
人工智能·深度学习·ocr·表格识别
深圳多奥智能一卡(码、脸)通系统1 小时前
智能二维码QR\刷IC卡\人脸AI识别梯控系统功能设计需基于模块化架构,整合物联网、生物识别、权限控制等技术,以下是多奥分层次的系统设计框架
人工智能·门禁·电梯门禁·二维码梯控·梯控·电梯
批量小王子1 小时前
2025-08-19利用opencv检测图片中文字及图片的坐标
人工智能·opencv·计算机视觉
WSSWWWSSW1 小时前
Seaborn数据可视化实战:Seaborn时间序列可视化入门
python·信息可视化·数据分析·matplotlib·seaborn
云天徽上2 小时前
【数据可视化-96】使用 Pyecharts 绘制主题河流图(ThemeRiver):步骤与数据组织形式
开发语言·python·信息可视化·数据分析·pyecharts
没有梦想的咸鱼185-1037-16632 小时前
SWMM排水管网水力、水质建模及在海绵与水环境中的应用
数据仓库·人工智能·数据挖掘·数据分析
codeyanwu2 小时前
nanoGPT 部署
python·深度学习·机器学习
即兴小索奇2 小时前
【无标题】
人工智能·ai·商业·ai商业洞察·即兴小索奇