【Python机器学习】NLP词中的数学——齐普夫定律

齐普夫定律指出:在给定的自然语言语料库中,任何一个词的频率与它在频率表中的排名成反比。

具体的说,这里的反比例关系指的是这样一种情况:排序列表中某一项的出现频率与其在排序列表中的排名成反比。例如,排序列表中的第一项出现的频率是第二项的2倍,是第三项的3倍。对于任何语料库或文档,我们可以快速做的一件事就是:绘制词的使用频率与它们的频率排名之间的关系。

齐普夫定律适用于很多东西的计数。比如某国城市人口与该人口排名之间的关系:

文字当然也满足相似的规律:

python 复制代码
import nltk
nltk.download('brown')
from nltk.corpus import brown

print(brown.words()[:10])
print(brown.tagged_words()[:5])
print(len(brown.words()))

这是一个超过100万词条的文档,下面看一下其中的信息:

python 复制代码
from collections import Counter
puncs=set((',','.','--','-','!','?',';',':','``',"''",'(',')','[',']'))
word_list=(x.lower() for x in brown.words() if x not in puncs)
token_counts=Counter(word_list)
print(token_counts.most_common(20))

上面语料库中的词频符合齐普夫预测的对数线性关系。"the"出现的频率大约是"of"的2倍、"and"的3倍。

简而言之,如果把语料库的词按照出现次数按降序排列,我们会发现:对一个足够大的样本,出现次数排名第一的词在语料库中出现次数是排名第二的词的两倍,是排名第四的词的四倍。因此,给定一个大型语料库,可以用上述数字来粗略统计给定词出现在该语料库的任何给定文档中的可能性。

相关推荐
Robot_Nav几秒前
Python 虚拟环境完全指南:venv、virtualenv 与 Conda
python·conda·virtualenv
cui_ruicheng2 分钟前
Linux线程(二):pthread 线程库与线程控制
java·开发语言·jvm
a752066282 分钟前
OpenClaw Windows11 保姆级安装部署教程(专属优化、一次成功)
人工智能·openclaw部署·小龙虾一键安装·小龙虾 ai·本地 ai 智能体
MATLAB代码顾问3 分钟前
【智能优化】杜鹃搜索算法(CSA)原理与Python实现
开发语言·python
小马过河R3 分钟前
从官方定义读懂智能体的时代分量
人工智能·语言模型·大模型·llm·agent·ai编程·多模态
邵奈一4 分钟前
M1 Max Mac版本实测 Rapid-MLX 项目(据说比ollama快4倍)
人工智能·macos·大模型
未来之窗软件服务6 分钟前
标准化法—计算机等级考试—软件设计师考前备忘录—东方仙盟
人工智能·仙盟创梦ide·东方仙盟·计算机考试
IJCAST6 分钟前
Exploring the Frontiers of Complexity: Latest Research from IJCAST
人工智能·深度学习·神经网络·算法
Yuezero_9 分钟前
Latent Manifold理论分析
人工智能·算法·机器学习
摸鱼仙人~10 分钟前
自动驾驶经验迁移到AI编码的可行性与方法论研究
人工智能·机器学习·自动驾驶