NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
二进制怪兽1 小时前
[笔记] 系统分析师 第八章 软件工程
笔记
minhuan1 小时前
构建AI智能体:二十八、大语言模型BERT:原理、应用结合日常场景实践全面解析
人工智能·语言模型·自然语言处理·bert·ai大模型·rag
yangzhi_emo2 小时前
ES6笔记4
前端·笔记·es6
星梦清河3 小时前
宋红康 JVM 笔记 Day16|垃圾回收相关概念
java·jvm·笔记
誰能久伴不乏3 小时前
Modbus 速查与实战笔记(功能码、帧结构、坑点)
笔记
easy20204 小时前
从机器学习的角度实现 excel 中趋势线:揭秘梯度下降过程
笔记·机器学习·线性回归
西柚小萌新4 小时前
【从零开始的大模型原理与实践教程】--第一章:NLP基础概念
人工智能·自然语言处理
Hóng xīng qiáo5 小时前
swVBA自学笔记014、Lisp适合对SolidWorks进行二次开发吗 ?
开发语言·笔记·lisp
Magnetic_h5 小时前
【iOS】block复习
笔记·macos·ios·objective-c·cocoa
带娃的IT创业者6 小时前
《AI大模型应知应会100篇》第68篇:移动应用中的大模型功能开发 —— 用 React Native 打造你的语音笔记摘要 App
人工智能·笔记·react native