机械学习—零基础学习日志(概率论总笔记5)

引言------"黑天鹅"

要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免"黑天鹅"?

古德-图灵折扣估计法

在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。

那需要把一些概率转移给到这些词语。

古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。

古德的这种做法被称为"古德-图灵折扣估计",因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。

插值法

贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。

如果条件P(X|Y)本身比较大,它在新的概率估计中会占主导地位。如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。

插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。

学习笔记:《数学通识50讲》吴军 ------得到 ,概率论章节

墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!

相关推荐
lixzest2 小时前
C++上位机软件开发入门深度学习
开发语言·c++·深度学习
iAkuya2 小时前
(leetcode)力扣100 34合并K个升序链表(排序,分治合并,优先队列)
算法·leetcode·链表
AI模块工坊2 小时前
【AAAI 2026】即插即用 Spikingformer 重构残差连接,打造高效脉冲 Transformer
深度学习·重构·transformer
我是小狼君2 小时前
【查找篇章之三:斐波那契查找】斐波那契查找:用黄金分割去“切”数组
数据结构·算法
于越海2 小时前
材料电子理论核心四个基本模型的python编程学习
开发语言·笔记·python·学习·学习方法
我命由我123453 小时前
开发中的英语积累 P26:Recursive、Parser、Pair、Matrix、Inset、Appropriate
经验分享·笔记·学习·职场和发展·求职招聘·职场发展·学习方法
北岛寒沫3 小时前
北京大学国家发展研究院 经济学原理课程笔记(第二十三课 货币供应与通货膨胀)
经验分享·笔记·学习
棒棒的皮皮3 小时前
【深度学习】YOLO模型评估之指标、可视化曲线分析
人工智能·深度学习·yolo·计算机视觉
fengfuyao9853 小时前
基于MATLAB实现任意平面太阳辐射量计算
算法·matlab·平面
知识分享小能手3 小时前
Ubuntu入门学习教程,从入门到精通,Ubuntu 22.04中的Java与Android开发环境 (20)
java·学习·ubuntu