勇闯机器学习(第四关-文本特征提取)

以下内容,皆为本人原创,制作不易,首先感谢各位阅读。

|-----------------|------------------------------------------------------------------------------------|
| 第一关:机器学习概念和流程 | http://t.csdnimg.cn/IuHh4 |
| 第二关:数据集的使用 | http://t.csdnimg.cn/2jsdi |
| 第三关:特征工程-字典特征提取 | http://t.csdnimg.cn/ZpMto |

一.文本特征提取

紧接上章节,这章节我们说如何将文本数据转为二维数组。方法如下:

作用:对文本数据进行特征值化

sklearn.feature_extraction.text.CountVectorizer(stop_words=\[\]) 返回词频矩阵

CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵

返回值:转换之前数据格

CountVectorizer.get_feature_names() 返回值:单词列表

可能直接列出方法,有点困难,直接看代码和运行结果。

python 复制代码
from sklearn.feature_extraction.text import CountVectorizer

def count_demo():
    # 文本数据
    data = ['life is short, i want to study python',
           'life is long, i dislike c++']
    # 文本特征提取CountVectorizer
    # 实例化一个转换器类
    transfer = CountVectorizer()

    # 调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new\n", data_new)
if __name__ == '__main__':
    count_demo()

我们可以看到这个data转换后的特征值不是特征数组,那我可以加一个toarray()方法。

观察第一个print里面,加了toarray()方法,就可以返回二维数组

python 复制代码
from sklearn.feature_extraction.text import CountVectorizer

def count_demo():
    # 文本数据
    data = ['life is short, i want to study python',
           'life is long, i dislike c++']
    # 文本特征提取CountVectorizer统计每个样本特征词出现的个数
    # 实例化一个转换器类
    transfer = CountVectorizer()

    # 调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new\n", data_new.toarray())
    print("feature_names\n", transfer.get_feature_names_out())
if __name__ == '__main__':
    count_demo()

总结:

可以看到返回的二维数组中,是一些单词,也就是特征值。那里面的0和1是什么意思呢?

**CountVectorizer统计每个样本特征值出现的个数。**我们可以看到二维列表,它里面的元素是一维列表。一维列表里面的元素跟特征值的数量都是一样的,都是9个。这个0和1表示的是对应的。0代表这一组列表里没有这个单词,1则代表有一个。比如说dislike不在我们data的第一句话里,所以返回的二维列表里第一个元素就是0,代表第一句话没有这个词。

二维列表里面的数字,是特征值出现的次数。

二.中文数据特征提取

有了上面的基础,那我们直接看代码和运行结果,变化的地方就是数据变成中文了。

python 复制代码
from sklearn.feature_extraction.text import CountVectorizer

def count_chinese_demo():
    #中文文本数据
    data = ['我喜欢你', '你喜欢我吗']

    # 实例化转换器类
    transfer = CountVectorizer()

    data_new = transfer.fit_transform(data)
    print("data_new\n", data_new)
    print("feature_name\n", transfer.get_feature_names_out())

if __name__ == "__main__":
    count_chinese_demo()
内心感想:
特征值为什么是一句话呢, 像我们之前的英文句子(是由一个个英语单词组成,并且单词之间有空格),所以很轻易的提取。而我们的中文都是在一起的。所以就把整个句子当做特征值了。

将中文句子中间加几个空格就可以了。将数据换成这个。

python 复制代码
    data = ['我 喜欢 你', '你 喜欢 我吗']

OK,这次特征值,就发生了变化。

感谢大家的观看,今天的分享就到这里。

相关推荐
沐籽李1 分钟前
Proteina-Complexa:NVIDIA 如何把蛋白 Binder 设计推进到全原子生成时代?
大数据·人工智能·算法·英伟达·蛋白质生成
逻辑君5 分钟前
神经生物学研究【20260003】
人工智能
大模型最新论文速读6 分钟前
StreamMA:把流式输出应用到多智能体系统
论文阅读·人工智能·深度学习·机器学习·自然语言处理
前端不太难10 分钟前
大模型之后,谁在决定AI的真实速度?
人工智能·状态模式
落羽的落羽10 分钟前
【项目】JsonRpc框架——开发实现2(业务层)
linux·数据结构·c++·人工智能·算法·json·动态规划
染指111011 分钟前
19.LangChain框架7-LangChain1.0版本使用Agent(中间件实例)
人工智能·python·机器学习·langchain·agent·rag
孟俊宇-MJY14 分钟前
CSDN AI数字营销内容创作功能测评
大数据·人工智能
网络研究院15 分钟前
AI安全格局:前沿模型、智能体AI和AI编码工具如何重塑网络安全与关键基础设施韧性
网络·人工智能·安全·模型·威胁
装不满的克莱因瓶17 分钟前
从梯度下降到 Adam 优化器:掌握神经网络参数优化的核心原理
人工智能·python·深度学习·神经网络·机器学习·计算机视觉·ai
maosheng114618 分钟前
基于AI 文本生成的自动化Linux 运维文档系统
运维·人工智能·自动化