TF-IDF

TF-IDF

全称:term frequency-inverse document frequency

即:词频 - 逆文档频率

TF:词频,指某个词(Term)在文档中出现的频率。

IDF:逆文档频率,公式如下

推理:

假定一个文档就是信息源,该文档包含T1,T2,T3,...,Tn共n个词汇,每个词汇出现了N1,N1,N3,...,Nn次,词汇在文档集中出现的文档频率(词汇的发生概率)分别为D1,D2,D3,...,Dn。

假设 K=sum(Ni) ,对于关键词 Ti 而言,它的信息量为 -log(Di) ,它对平均编码长度的贡献为:-Ni*log(Di) / K,即 Ni / k * log(1/Di),其中Ni / K为在文档中关键词Ti的词频(TF,Term Frequency),log(1/Di)=log(|D| / |{j: Ti 出现在文档dj中}|)为文档中关键词Ti的文档频率倒数的对数式,称为逆文档频率(IDF,Inverse Document Frequency),这就是经典的TF*IDF。

词袋模型

源自"Bag of words",简称 BOW ,是构建文档-词项矩阵的基本思想。对于给定的文本,可以是一个段落,也可以是一个文档,该模型都忽略文本的词汇顺序和语法、句法,假设文本是由无序、独立的词汇构成的集合,这个集合可以被直观的想象成一个词袋,袋子里面就是构成文本的各种词汇。

文档-词项矩阵

源自"Document-Term Matrix",简称 DTM,DTM 矩阵转置后即为 TDM。 我们在第一章简单介绍过文档-词项矩阵的构成,直观来看,矩阵的行代表文档,列代表词汇,矩阵元素即为文档中某一词汇出现的次数。

相关推荐
我材不敲代码12 天前
Python 实战——红楼梦文本分析全流程:从分卷处理到分词再到TF-IDF 提取核心关键词
人工智能·自然语言处理·tf-idf
光羽隹衡2 个月前
机器学习——TF-IDF实战(红楼梦数据处理)
python·tf-idf
囊中之锥.2 个月前
从分词到词云:基于 TF-IDF 的中文关键词提取实践
前端·tf-idf·easyui
光羽隹衡2 个月前
机器学习——自然语言处理之关键词提取任务(TF-IDF)
机器学习·自然语言处理·tf-idf
Pyeako2 个月前
机器学习--TF-IDF&红楼梦案例
机器学习·nlp·tf-idf·红楼梦·自然语言学习
子夜江寒3 个月前
基于 TF-IDF 的《红楼梦》分卷文本关键词提取分析
tf-idf
薛不痒3 个月前
机器学习算法之TF-idf
人工智能·算法·机器学习·tf-idf
啊巴矲3 个月前
小白从零开始勇闯人工智能:机器学习初级篇(TF-IDF)
人工智能·机器学习·tf-idf
一招定胜负3 个月前
基于TF-IDF完成《红楼梦》关键词提取(制作搜索引擎)
tf-idf