机器学习-贝叶斯公式

_Li.2025-12-19 12:34

问题：用户输入了一个不在字典中的单词，我们需要去猜测：

用户到底真正想输入的单词是什么？

形式化：

P(我们猜测他想输入的单词|他实际输入的单词)

找出那个使得这个概率最大的猜测单词

对于给定观测数据，一个假设的概率取决于这个假设本身的可能性大小（即-先验概率,Prior）和该假设生成观测数据的可能性大小(即-似然性，Likeihood)的乘积。

最大似然：并不能提供决策的全部信息，当两个假设的似然程度相同或者接近时，难以区分哪个假设更可能。进一步来说，即使其中一个假设与数据更加符合，也不能代表这个假设最优，因为这个猜测本身的可能性也许就非常低。

观点1：观测数据总是存在误差，过分追求完美解释观测数据的模型，就会过拟合(overfitting)，试图连噪声都去解释；观点2：过拟合的另一个原因是真实世界中对数据的结果产生贡献的因素太多而无法建模，跟噪声不同，这些偏差是另外的因为集体贡献的结果，不是模型所能解释的。一个显示世界的模型往往只提取几个与结果高度相关，很重要的因素。观测数据会倾向于围绕有限模型的预测结果呈现正态分布。

但是如果知道先验概率呢？或者先验概率相同呢？只能依靠最大似然法吗？

Bayesian Occams Razor 贝叶斯奥卡姆剃刀

如果平面上有N个点近似成一条直接，但绝不精确的在一条直线上。这时我们既可以用直接来拟合，也可以用二阶多项式甚至N-1多项式来拟合

奥卡姆剃刀：越是高阶的多项式越是繁杂和不常见（先验概率）

而似然概率高速我们越是高阶的多项式，他的轨迹弯曲程度越大。

三、贝叶斯公式的应用

分词问题：南京市长江大桥

四、数据稀疏问题

五、机器翻译