-
TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性。
-
TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性
-
TF-IDF由两个主要部分组成:
TF-IDF(x) = TF(x)*IDF(x)- TF(词频)
- TF代表的是某个词在一篇文档中出现的频率。
- 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
- 词频衡量了某个词在特定文档中的重要性。
- w是某个单词
- d是特定文档
- count(w,d)------这个单词在这个文档中出现的次数
- size(d)------这个文档的单词数量
- IDF(逆文档频率)
- IDF则衡量的是某个词在整个文档集中的普遍性
- IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
- n------文档总数
- docs(w,D)------词w出现在文件集D的多少个文件中
- TF(词频)
NLP 笔记:TF-IDF
UQI-LIUWJ2024-05-06 6:05
相关推荐
智者知已应修善业4 小时前
【proteus中lm339电压滞回比较器达到三角波转换成方波】2023-4-13551只玄猫4 小时前
新编大学德语1第三版笔记 第5课Essen und Trinken不只会拍照的程序猿6 小时前
《嵌入式AI筑基笔记02:Python数据类型01,从C的“硬核”到Python的“包容”》Tadas-Gao6 小时前
Mem0分层记忆系统:大语言模型长期记忆的架构革命与实现范式深瞳智检6 小时前
lesson-02 NLP 基础-文本表示与词向量中屹指纹浏览器10 小时前
2026指纹浏览器性能瓶颈分析与优化技巧雷工笔记11 小时前
随笔|走!跳楼去!就叫飞六吧11 小时前
国产数据库gbase8s安装-网盘网络工程小王11 小时前
【大数据技术详解】——Kibana(学习笔记)努力的lpp12 小时前
2024小迪安全课程第四节复习笔记