TfidfVectorizer

TF-IDF / Term Frequency - Inverse Document Frequency

作用 :是自然语言处理NLP中常用的文本特征提取工具,用于将文本数据转换为数据向量。
核心思想:是通过统计词频和逆文档频率来量化词语在文本中的重要性。

  • T F − I D F ( t , d ) = T F ( t , d ) ∗ I D F ( t ) TF-IDF_{(t,d)} = TF_{(t,d)} * IDF_{(t)} TF−IDF(t,d)=TF(t,d)∗IDF(t)

  • 意义:

    -- 高频词(TF高)但罕见(IDF高)的词语会获得高权重(e.g.专业术语);

    -- 高频但常见的词语(如"的"、"是")会被抑制。

  • 子公式1/2

    -- T F ( t , d ) = 词 t 在文档 d 中出现次数 文档 d 的总词语 TF_{(t,d)} = \dfrac{词t在文档d中出现次数}{文档d的总词语} TF(t,d)=文档d的总词语词t在文档d中出现次数

  • 子公式2/2

    -- I D F ( t ) = 总文档数 包含词 t 的文档数 + 1 + 1 IDF_{(t)} = \dfrac{总文档数}{包含词t的文档数+1}+1 IDF(t)=包含词t的文档数+1总文档数+1

相关推荐
梁正雄1 分钟前
1、python基础语法
开发语言·python
ituff1 小时前
微软认证考试又免费了
后端·python·flask
梁正雄2 小时前
2、Python流程控制
开发语言·python
Eric.Lee20213 小时前
ubuntu 安装 Miniconda
linux·运维·python·ubuntu·miniconda
无心水3 小时前
【Python实战进阶】1、Python高手养成指南:四阶段突破法从入门到架构师
开发语言·python·django·matplotlib·gil·python实战进阶·python工程化实战进阶
李剑一4 小时前
Python学习笔记1
python
ModestCoder_5 小时前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
Salt_07286 小时前
DAY 19 数组的常见操作和形状
人工智能·python·机器学习
无心水6 小时前
【Python实战进阶】2、Jupyter Notebook终极指南:为什么说不会Jupyter就等于不会Python?
python·jupyter·信息可视化·binder·google colab·python实战进阶·python工程化实战进阶
7***A4436 小时前
Vue自然语言处理应用
前端·vue.js·自然语言处理