机械学习—零基础学习日志(概率论总笔记5)

引言------"黑天鹅"

要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免"黑天鹅"?

古德-图灵折扣估计法

在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。

那需要把一些概率转移给到这些词语。

古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。

古德的这种做法被称为"古德-图灵折扣估计",因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。

插值法

贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。

如果条件P(X|Y)本身比较大,它在新的概率估计中会占主导地位。如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。

插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。

学习笔记:《数学通识50讲》吴军 ------得到 ,概率论章节

墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!

相关推荐
视觉语言导航30 分钟前
RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航!VR-Robo:面向视觉机器人导航与运动的现实-模拟-现实框架
人工智能·深度学习·机器人·具身智能
糖葫芦君38 分钟前
Policy Gradient【强化学习的数学原理】
算法
大春儿的试验田1 小时前
高并发收藏功能设计:Redis异步同步与定时补偿机制详解
java·数据库·redis·学习·缓存
笑衬人心。1 小时前
Ubuntu 22.04 修改默认 Python 版本为 Python3 笔记
笔记·python·ubuntu
BFT白芙堂2 小时前
睿尔曼系列机器人——以创新驱动未来,重塑智能协作新生态(上)
人工智能·机器学习·机器人·协作机器人·复合机器人·睿尔曼机器人
金色光环2 小时前
【Modbus学习笔记】stm32实现Modbus
笔记·stm32·学习
羊小猪~~2 小时前
【NLP入门系列五】中文文本分类案例
人工智能·深度学习·考研·机器学习·自然语言处理·分类·数据挖掘
李师兄说大模型2 小时前
KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架
人工智能·深度学习·机器学习·语言模型·自然语言处理·大模型·deepseek
THMOM912 小时前
TinyWebserver学习(9)-HTTP
网络协议·学习·http
向阳@向远方2 小时前
第二章 简单程序设计
开发语言·c++·算法