机械学习—零基础学习日志（概率论总笔记5）

学长小陈来帮你2024-09-11 13:27

引言------"黑天鹅"

要获得95%以上置信度的统计结果，需要被统计的对象出现上千次，但是如果整个样本只有几千字，被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免"黑天鹅"？

在词语统计中，有点词语虽然是出现0次，但是实际的出现概率并不是永远不可能的零。

那需要把一些概率转移给到这些词语。

古德的做法实际上就是把出现1次的单词的总量，给了出现0次的，出现2次单词的总量给了出现1次的，以此类推。

古德的这种做法被称为"古德-图灵折扣估计"，因为它实际上是把高频词的词频打了一个折，多出来的词频分配给了低频词。

贾里尼克把条件概率和非条件概率加起来，得到一个新的概率。在相加之前，分别给这两个概率权重。例如，条件概率的权重（更高）是0.7，非条件概率的权重是0.3。

如果条件P(X|Y)本身比较大，它在新的概率估计中会占主导地位。如果P(X|Y)本身比较小，说明它反正也不太可靠，而这时非条件概率，即P(X)本身则占了主导地位，因为X本身出现的次数会比较多，统计结果可信度会高一些。

插值法的精髓在于，相信那些见到次数比较多的统计结果，如果遇到统计数量不足时，就设法找一个可靠的统计结果来近似。

学习笔记：《数学通识50讲》吴军 ------得到，概率论章节

墙裂推荐大家去学习《数学通识50讲》，吴军老师讲解得超级超级好！