机械学习—零基础学习日志(概率论总笔记5)

引言------"黑天鹅"

要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免"黑天鹅"?

古德-图灵折扣估计法

在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。

那需要把一些概率转移给到这些词语。

古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。

古德的这种做法被称为"古德-图灵折扣估计",因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。

插值法

贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。

如果条件P(X|Y)本身比较大,它在新的概率估计中会占主导地位。如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。

插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。

学习笔记:《数学通识50讲》吴军 ------得到 ,概率论章节

墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!

相关推荐
wearegogog1232 小时前
基于 MATLAB 的卡尔曼滤波器实现,用于消除噪声并估算信号
前端·算法·matlab
一只小小汤圆2 小时前
几何算法库
算法
Drawing stars3 小时前
JAVA后端 前端 大模型应用 学习路线
java·前端·学习
崇山峻岭之间3 小时前
Matlab学习记录33
开发语言·学习·matlab
Evand J3 小时前
【2026课题推荐】DOA定位——MUSIC算法进行多传感器协同目标定位。附MATLAB例程运行结果
开发语言·算法·matlab
leo__5203 小时前
基于MATLAB的交互式多模型跟踪算法(IMM)实现
人工智能·算法·matlab
忆锦紫3 小时前
图像增强算法:Gamma映射算法及MATLAB实现
开发语言·算法·matlab
玄〤3 小时前
黑马点评中 VoucherOrderServiceImpl 实现类中的一人一单实现解析(单机部署)
java·数据库·redis·笔记·后端·mybatis·springboot
t198751283 小时前
基于自适应Chirplet变换的雷达回波微多普勒特征提取
算法
guygg883 小时前
采用PSO算法优化PID参数,通过调用Simulink和PSO使得ITAE标准最小化
算法