NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
tt5555555555552 小时前
python文件打包无法导入ultralytics模块
开发语言·pytorch·笔记·python
XT46252 小时前
AI 之 LLM(大语言模型)是如何生成文本的!
人工智能·语言模型·自然语言处理
cmc10283 小时前
71.case语句要比if-else 语句费逻辑单元
笔记
L_cl3 小时前
【NLP 58、利用trl框架训练LLM】
人工智能·深度学习·自然语言处理
uncle_ll3 小时前
李宏毅NLP-2-语音识别part1
人工智能·自然语言处理·nlp·语音识别·李宏毅
丰锋ff3 小时前
考研单词笔记 2025.04.12
笔记
L_cl4 小时前
【NLP 59、大模型应用 —— BPE 算法】
人工智能·自然语言处理
碣石潇湘无限路4 小时前
【技术】Ruby 生态概念速查表,通过对比nodejs生态(入门)
开发语言·经验分享·笔记·后端·node.js·ruby
笑鸿的学习笔记5 小时前
虚幻引擎5-Unreal Engine笔记之“将MyStudent变量设置为一个BP_Student的实例”这句话如何理解?
笔记·ue5·虚幻
MrsBaek5 小时前
【前端笔记】CSS预处理语言 LESS
前端·css·笔记