TfidfVectorizer

TF-IDF / Term Frequency - Inverse Document Frequency

作用 :是自然语言处理NLP中常用的文本特征提取工具,用于将文本数据转换为数据向量。
核心思想:是通过统计词频和逆文档频率来量化词语在文本中的重要性。

  • T F − I D F ( t , d ) = T F ( t , d ) ∗ I D F ( t ) TF-IDF_{(t,d)} = TF_{(t,d)} * IDF_{(t)} TF−IDF(t,d)=TF(t,d)∗IDF(t)

  • 意义:

    -- 高频词(TF高)但罕见(IDF高)的词语会获得高权重(e.g.专业术语);

    -- 高频但常见的词语(如"的"、"是")会被抑制。

  • 子公式1/2

    -- T F ( t , d ) = 词 t 在文档 d 中出现次数 文档 d 的总词语 TF_{(t,d)} = \dfrac{词t在文档d中出现次数}{文档d的总词语} TF(t,d)=文档d的总词语词t在文档d中出现次数

  • 子公式2/2

    -- I D F ( t ) = 总文档数 包含词 t 的文档数 + 1 + 1 IDF_{(t)} = \dfrac{总文档数}{包含词t的文档数+1}+1 IDF(t)=包含词t的文档数+1总文档数+1

相关推荐
西农小陈20 分钟前
Python-基于PyQt5,wordcloud,pillow,numpy,os,sys等的智能词云生成器
开发语言·python·小程序·pycharm·numpy·pyqt·pillow
q567315231 小时前
如何在 Canopy 中导入 scikit-learn
开发语言·python
菜狗woc1 小时前
作业二.自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合
开发语言·python·机器学习
汤姆和佩琦1 小时前
2025-2-3-sklearn学习(50) & (51) 完结篇 零落成泥碾作尘,只有香如故。
人工智能·python·学习·机器学习·sklearn
江无行者1 小时前
python 如何生成requirements.txt
python
测试大圣1 小时前
2025最新软件测试面试大全
自动化测试·软件测试·python·测试工具·面试·职场和发展·测试用例
Damon小智2 小时前
使用Pygame制作“圣诞树”
python·pygame
曾彪彪2 小时前
Python pika消费Rabbit MQ数据,慢消费引起的connection reset问题
python·消息中间件·rabbit mq
万事可爱^4 小时前
DeepSeek各版本说明与优缺点分析
深度学习·语言模型·nlp·deepseek·版本解释