-
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性。
-
TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性
-
TF-IDF由两个主要部分组成:
TF-IDF(x) = TF(x)*IDF(x)- TF(词频)
- TF代表的是某个词在一篇文档中出现的频率。
- 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
- 词频衡量了某个词在特定文档中的重要性。
- w是某个单词
- d是特定文档
- count(w,d)------这个单词在这个文档中出现的次数
- size(d)------这个文档的单词数量
- IDF(逆文档频率)
- IDF则衡量的是某个词在整个文档集中的普遍性
- IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
- n------文档总数
- docs(w,D)------词w出现在文件集D的多少个文件中
- TF(词频)
NLP 笔记:TF-IDF
UQI-LIUWJ2024-05-06 6:05
相关推荐
三品吉他手会点灯7 小时前
C语言学习笔记 - 50.流程控制4 - 流程控制为什么非常非常重要chushiyunen9 小时前
langchain4j笔记、tools财经资讯数据_灵砚智能10 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日影视飓风TIM11 小时前
数据结构 | 链表超全笔记(单链表+双链表+高频算法题)二哈赛车手11 小时前
新人笔记---最终版智能体图片分析完整方案,包括一些总结于经验,以及各种优化点讲解_李小白11 小时前
【智能驾驶:视觉感知后处理 阅读笔记】Day4: 相机成像模型与畸变十月的皮皮11 小时前
C语言学习笔记20260615-有序升序序列合并叫我:松哥13 小时前
基于机器学习的中文文本抑郁症风险检测系统,包括NLP与传统机器学习的抑郁症识别,准确率92%辣香牛肉面14 小时前
CintaNotes个人笔记管理软件v3.14(v3.13.0 绿色汉化版)yoothey16 小时前
异常学习笔记:为什么自定义异常后还要 throw?