机器学习(第六关--文本特征抽取)

以下内容,皆为原创,制作实属不易,感谢大家的观看和关注。

在此真诚的祝愿大家,生活顺顺利利,身体健健康康,前途似锦。

|--------------------|------------------------------------------------------------------------------------|
| 第一关:机器学习概念和流程 | http://t.csdnimg.cn/IuHh4 |
| 第二关:数据集的使用 | http://t.csdnimg.cn/1AD9D |
| 第三关:特征工程-字典特征提取 | http://t.csdnimg.cn/tSES1 |
| 第四关:特征工程-文本特征提取 | http://t.csdnimg.cn/HSGhz |
| 第五关:特征工程--中文文本特征提取 | http://t.csdnimg.cn/iN7e6 |

一. 关键词的作用

关键词:在某个类别的文章中,出现的次数很多,但是在别的类型文章中就少。

关键词的作用 :这样我们就可以判断文章是什么类型的了,比如说一个文章里面提到的大多是**"共享"、"车"** ,所以大概率是说共享单车或者共享汽车的,属于科技类文章

显而易见,左边是科技类文章,右边是生活健康类文章。

那么文本特征提取有两个方法,我们这个章节学习第二个TfidfVectorizer

|-----------------|-----------------|
| CountVectorizer | TfidfVectorizer |

二.Tf-idf文本特征提取

1.TF-IDF的主要思想

如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类

TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

**

2.公式**

词频(termfrequency,tf)指的是某一个给定的词语在该文件中出现的频率。 逆向文档频率(inversedocumentfrequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商****取以10为底的对数得到。

3.代码API

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

·X:文本或者包含文本字符串的可迭代对象(列表或者字符串等)

·返回值:返回sparse矩阵

TfidfVectorizerinverse_transform(X)

·X:array数组或者sparse矩阵

返回值:转换之前数据格式

TfidfVectorizer.get_feature_names0

·返回值:单词列表

好吧,这个可能你们看着有点懵,我们还是以实际代码为例。

python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

# 原始文本数据
data = ["真正的勇气是一种精神的力量,人格的力量,智慧的力量。",
        "拥有了这种力量,我们就能独自越过困难堆成的高山;",
        "拥有这种力量,我们就能克服生活的磨难;拥有了这种力量,我们就能成为命运的主宰,始终扬起胜利的风帆。"]

# 使用CountVectorizer,设置分析器为jieba分词
vectorizer = TfidfVectorizer(analyzer='word', tokenizer=jieba.cut)

# 计算词频矩阵
X = vectorizer.fit_transform(data)

# 输出词频矩阵
print("词频矩阵:\n", X.toarray())

# 输出特征名称
print("特征名称:\n", vectorizer.get_feature_names_out())

4.总结

我们可以看到,这里面的关键词,可以判断是一个励志语句类型的。事实确实也是如此,因为我们自己传进去的data,自己肯定知道。

你看到词频矩阵了吗?那里面的值,越大的就越能体现重要性和分类意义。

三.提问时刻

那我们特征提取的意义在哪里呢?

我们将不是数值的数据 转为 数值,进行特征值化,可以更好的了解和处理每个数据的特征。就像我们上面一样。知道了哪些词是特征,哪些词是出现次数比较多的,然后还是比较重要的。

四.感谢观看

感谢大家的观看,祝愿大家的生活顺顺利利,生活不止工作,陪陪自己的家人。大家拜拜~

相关推荐
wjcroom2 分钟前
电子python模拟出的一个完美风暴
开发语言·python·数学建模·物理学
世人万千丶2 分钟前
开源鸿蒙跨平台深度解析:Flutter Pigeon 跨平台官方示例适配全流程与底层故障溯源
学习·flutter·华为·开源·harmonyos·鸿蒙系统
极创信息3 分钟前
不同开发语言程序如何做信创适配认证?完整流程与评价指标有哪些
java·c语言·开发语言·python·php·ruby·hibernate
切糕师学AI4 分钟前
Elasticsearch Learning to Rank 完全指南
大数据·elasticsearch·机器学习·搜索引擎
清水白石0086 分钟前
Python 日志采集到数据仓库 ETL 流程设计实战:从基础语法到生产级可靠运维
数据仓库·python·etl
威联通网络存储8 分钟前
云原生容器底座:Kubernetes 持久化存储与 CSI 架构解析
python·云原生·架构·kubernetes
Thomas.Sir8 分钟前
第6节:Function Calling深度剖析
人工智能·python·ai·functioncalling
世人万千丶9 分钟前
解决鸿蒙方向的Flutter框架版切换问题-当前最新版本3.35.8——工具切换与命令切换
学习·flutter·elasticsearch·华为·harmonyos·鸿蒙
洛阳吕工11 分钟前
【Python 教程】无人机 MAVLink 通信完整实战:连接飞控、接收数据与发送指令
开发语言·python·无人机
迷路爸爸18011 分钟前
Docker 入门学习笔记 01:它到底解决了什么问题,镜像和容器又是什么
服务器·笔记·学习·docker·容器