NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
liteblue21 分钟前
DEB包解包与打包笔记
linux·笔记
崇山峻岭之间1 小时前
C++ Prime Plus 学习笔记027
c++·笔记·学习
IMPYLH2 小时前
Lua 的 tonumber 函数
开发语言·笔记·后端·junit·游戏引擎·lua
Xudde.2 小时前
BabyPass靶机渗透
笔记·学习·安全·web安全
风123456789~2 小时前
【健康管理学】第10章 中医养生学 1/2
笔记·健康管理
hit56实验室2 小时前
罗计物流为什么会失败
笔记
xian_wwq3 小时前
【学习笔记】可信工业数据空间的系统架构
笔记·学习
不会代码的小猴3 小时前
C++的第十二天笔记
开发语言·c++·笔记
黑客思维者3 小时前
招商银行信用卡AI客服系统:从0到1实战笔记
大数据·人工智能·笔记
摇滚侠3 小时前
ElasticSearch 教程入门到精通,文档新增修改,文档查询删除,文档批量新增批量删除,笔记21、笔记22、笔记23
笔记·elasticsearch·搜索引擎