NLP 笔记:TF-IDF

  • TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索和文本挖掘的统计方法,用来评估一个词在一组文档中的重要性

  • TF-IDF的基本思想是,如果某个词在一篇文档中出现频率高,但在其他文档中很少出现,那么它可能具有很高的重要性

  • TF-IDF由两个主要部分组成:

    复制代码
    TF-IDF(x) = TF(x)*IDF(x)
    • TF(词频)
      • TF代表的是某个词在一篇文档中出现的频率。
      • 这个频率可以通过计算词在文档中出现的次数与该文档中总词数的比例来得到。
      • 词频衡量了某个词在特定文档中的重要性
        • w是某个单词
        • d是特定文档
        • count(w,d)------这个单词在这个文档中出现的次数
        • size(d)------这个文档的单词数量
    • IDF(逆文档频率)
      • ​​​​​​​IDF则衡量的是某个词在整个文档集中的普遍性
      • IDF用来降低那些在很多文档中都出现过的常用词(如"的"、"是")的权重,使得独特而少见的词更为突出
        • n------文档总数
        • docs(w,D)------词w出现在文件集D的多少个文件中
相关推荐
谅望者19 小时前
数据分析笔记06:假设检验
笔记·数据挖掘·数据分析
摇滚侠20 小时前
Vue 项目实战《尚医通》,获取当前账户就诊人信息并展示出来,笔记42
前端·javascript·vue.js·笔记·html5
d111111111d21 小时前
STM32通信协议学习--I2C通信(了解)
笔记·stm32·单片机·嵌入式硬件·学习
Rousson1 天前
硬件学习笔记--89 MCU主频对Uart波特率影响及采样点
笔记·单片机·学习
2301_801821711 天前
标签分类调研
笔记
im_AMBER1 天前
HTTP 02 会话 | 消息 | MIME类型
网络·笔记·网络协议·学习·http
循环过三天1 天前
7.5、Python-匿名函数lambda
笔记·python·学习
不会写代码的里奇1 天前
VMware Ubuntu 22.04 NAT模式下配置GitHub SSH完整教程(含踩坑实录+报错_成功信息对照)
linux·经验分享·笔记·git·ubuntu·ssh·github
_不会dp不改名_1 天前
HCIP笔记5--OSPF域间路由、虚链路、认证
网络·笔记·hcip
虫洞没有虫1 天前
Go语言学习笔记(二)
笔记·学习