机器学习:自然语言处理之关键词提取(TF-IDF)

目录

前言

一、TF-IDF

1.TF

2.IDF

3.TF-IDF计算法则

4.TF-IDF的本质

二、代码实现

1.导入库

2.读取文本数据

[3. 初始化TfidfVectorizer并转换文本数据](#3. 初始化TfidfVectorizer并转换文本数据)

[4. 获取词汇表并创建 DataFrame](#4. 获取词汇表并创建 DataFrame)

5.处理每篇文章的特征

总结


前言

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于文本挖掘的统计方法,用于评估一个词语在一篇文档中的重要性。

一、TF-IDF

1.TF

表示某个词在文档中出现的频率。计算方法是词频(该词在文档中出现的次数)除以文档总词数。

计算方式:

举个栗子:

2.IDF

衡量词语在整个语料库中的重要性。计算方法是文档总数除以包含该词的文档数,然后取对数。

计算方式:

3.TF-IDF计算法则

4.TF-IDF的本质

TF-IDF 通过将这两者相乘来赋予词语权重。它可以帮助识别在文档中频繁出现但在整个语料库中较少出现的关键词,从而提高文本分析的效果。

举个栗子:

根据TF-IDF的值可以判断,蜜蜂在这三个词里占该文章的权重最高,意味着更加关键

二、代码实现

  • 使用文本:

1.导入库

  • 导入sklearn里的TfidfVectorizer类,该类是一种用于文本特征提取的工具
  • 导入盘pandas库用于处理数据
python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

2.读取文本数据

  • 打开指定的文本文件。
  • 读取文件的每一行,并将其存储为列表 text
python 复制代码
infile = open(r"task2_1.txt", "r")  # 打开文件
text = infile.readlines()  # 读取所有行 以列表形式存储

3. 初始化TfidfVectorizer并转换文本数据

  • 创建一个 TfidfVectorizer 对象。
  • 使用 fit_transform 方法将文本数据转换为 TF-IDF 特征矩阵,并打印矩阵。
python 复制代码
vectorizer = TfidfVectorizer()
tfdif = vectorizer.fit_transform(text)
print(tfdif)

4. 获取词汇表并创建 DataFrame

  • 获取 TF-IDF 特征矩阵中的词汇表 wordlist 。
  • 将 TF-IDF 特征矩阵转换为 DataFrame,并以词汇表作为行索引。
python 复制代码
wordlist = vectorizer.get_feature_names()  # 获取文章中所有的词
print(wordlist)
df = pd.DataFrame(tfdif.T.todense(), index=wordlist)

5.处理每篇文章的特征

  • 对每篇文章(列)提取特征,将其转换为列表。
  • 将每篇文章的特征(词汇和对应的 TF-IDF 值)存储在字典 resdict 中。
  • 将字典按 TF-IDF 值降序排序,并打印每篇文章中 TF-IDF 值最高的前十个词汇。
python 复制代码
a = df.iloc[:, 1]  # 提取第二篇文章的特征(仅作为示例)

for j in range(0, len(text)):
    featurelist = df.iloc[:, j].to_list()  # 将每一列的内容转换成列表
    resdict = {}
    for i in range(0, len(wordlist)):
        resdict[wordlist[i]] = featurelist[i] 
         # 将wordlist中的第 i 个词汇作为键,featurelist 中的第 i 个值作为对应的值,添加到 resdict 中
    resdict = sorted(resdict.items(), key=lambda x: x[1], reverse=True)  
    # 先生成键值对 再按键值对元组中的第二个元素进行排序  降序排序

    print(f"第{j + 1}篇文章:", resdict[:10])  # 输出频数最高的十个词

总结

TF-IDF的本质就是给文本中的词赋予权重,大多时候权重高的即可当做文章的关键词

相关推荐
城市数据研习社2 小时前
【论文分享】三维景观格局如何影响城市居民的情绪
深度学习·机器学习·数据分析
Seeklike4 小时前
11.15 机器学习-集成学习方法-随机森林
机器学习
秀儿还能再秀4 小时前
支持向量机SVM——基于分类问题的监督学习算法
算法·机器学习·支持向量机·学习笔记
Biomamba生信基地5 小时前
R语言基础| 机器学习
开发语言·机器学习·r语言
瑕、疵5 小时前
使用机器学习优化数据库查询性能
数据库·机器学习·oracle
小馒头学python6 小时前
机器学习中的概率超能力:如何用朴素贝叶斯算法结合标注数据做出精准预测
人工智能·python·算法·机器学习
B站计算机毕业设计超人6 小时前
计算机毕业设计Python+大模型中医养生问答系统 知识图谱 医疗大数据 中医可视化 机器学习 深度学习 人工智能 大数据毕业设计
大数据·人工智能·爬虫·python·深度学习·机器学习·知识图谱
爱数学的程序猿7 小时前
联邦学习的未来:深入剖析FedAvg算法与数据不均衡的解决之道
深度学习·学习·机器学习
谢眠8 小时前
机器学习day5-随机森林和线性代数1
线性代数·随机森林·机器学习
光明中黑暗8 小时前
机器学习 决策树
决策树·机器学习