NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
jiedaodezhuti20 分钟前
ElasticSearch重启之后shard未分配问题的解决
笔记·elasticsearch
z人间防沉迷k1 小时前
堆(Heap)
开发语言·数据结构·笔记·python·算法
z542968z1 小时前
Springboot3自定义starter笔记
笔记
丰锋ff2 小时前
操作系统学习笔记第3章 内存管理(灰灰题库)
笔记·学习
jackson凌3 小时前
【Java学习笔记】equals方法
java·笔记·学习
龙湾开发3 小时前
计算机图形学编程(使用OpenGL和C++)(第2版)学习笔记 10.增强表面细节(一)过程式凹凸贴图
c++·笔记·学习·3d·图形渲染
自学互联网4 小时前
系统集成项目管理工程师学习笔记
笔记·学习
HappyAcmen5 小时前
线代第二章矩阵第九、十节:初等变换、矩阵的标准形、阶梯形与行最简阶梯形、初等矩阵
笔记·学习·线性代数·矩阵
lil44x_5 小时前
嵌入式学习笔记DAY21(双向链表、Makefile)
笔记·学习
是麟渊6 小时前
【大模型面试每日一题】Day 17:解释MoE(Mixture of Experts)架构如何实现模型稀疏性,并分析其训练难点
人工智能·自然语言处理·面试·职场和发展·架构