-
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性。
-
TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性
-
TF-IDF由两个主要部分组成:
TF-IDF(x) = TF(x)*IDF(x)
- TF(词频)
- TF代表的是某个词在一篇文档中出现的频率。
- 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
- 词频衡量了某个词在特定文档中的重要性。
-
- w是某个单词
- d是特定文档
- count(w,d)------这个单词在这个文档中出现的次数
- size(d)------这个文档的单词数量
- IDF(逆文档频率)
- IDF则衡量的是某个词在整个文档集中的普遍性
- IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
-
- n------文档总数
- docs(w,D)------词w出现在文件集D的多少个文件中
- TF(词频)
NLP 笔记:TF-IDF
UQI-LIUWJ2024-05-06 6:05
相关推荐
沐雪架构师1 小时前
AI大模型开发原理篇-2:语言模型雏形之词袋模型struggle20253 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BIFhd-学习笔记5 小时前
《大语言模型》综述学习笔记简知圈6 小时前
【04-自己画P封装,并添加已有3D封装】YxVoyager6 小时前
GAMES101学习笔记(五):Texture 纹理(纹理映射、重心坐标、纹理贴图)Buring_learn7 小时前
代理模式 -- 学习笔记池佳齐7 小时前
《AI大模型开发笔记》DeepSeek技术创新点圆圆滚滚小企鹅。8 小时前
刷题记录 HOT100回溯算法-6:79. 单词搜索大邳草民8 小时前
计算机网络的基础设备霸王蟹9 小时前
文本复制兼容方案最佳实现落地。