NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
佑白雪乐3 分钟前
<王道操作系统第1集>1.1.1~1.3.1
笔记
PeterClerk10 分钟前
深度学习-NLP 常见语料库
人工智能·深度学习·自然语言处理
bodybo29 分钟前
搭建内网穿透服务器NPS
笔记
强子感冒了38 分钟前
Java IO流学习笔记:从字节流到字符流
java·笔记·学习
saoys9 小时前
Opencv 学习笔记:图像掩膜操作(精准提取指定区域像素)
笔记·opencv·学习
电子小白12310 小时前
第13期PCB layout工程师初级培训-1-EDA软件的通用设置
笔记·嵌入式硬件·学习·pcb·layout
clorisqqq12 小时前
人工智能现代方法笔记 第1章 绪论(1/2)
人工智能·笔记
charlie11451419112 小时前
嵌入式现代C++教程: 构造函数优化:初始化列表 vs 成员赋值
开发语言·c++·笔记·学习·嵌入式·现代c++
wdfk_prog13 小时前
[Linux]学习笔记系列 -- [fs]seq_file
linux·笔记·学习
liuchangng13 小时前
Open-AutoGLM部署运行笔记
笔记