机器学习-贝叶斯公式

问题:用户输入了一个不在字典中的单词,我们需要去猜测:

用户到底真正想输入的单词是什么?

形式化:

P(我们猜测他想输入的单词|他实际输入的单词)

找出那个使得这个概率最大的猜测单词

对于给定观测数据,一个假设的概率取决于这个假设本身的可能性大小(即-先验概率,Prior)和该假设生成观测数据的可能性大小(即-似然性,Likeihood)的乘积。

最大似然:并不能提供决策的全部信息,当两个假设的似然程度相同或者接近时,难以区分哪个假设更可能。进一步来说,即使其中一个假设与数据更加符合,也不能代表这个假设最优,因为这个猜测本身的可能性也许就非常低。

观点1:观测数据总是存在误差,过分追求完美解释观测数据的模型,就会过拟合(overfitting),试图连噪声都去解释;观点2:过拟合的另一个原因是真实世界中对数据的结果产生贡献的因素太多而无法建模,跟噪声不同,这些偏差是另外的因为集体贡献的结果,不是模型所能解释的。一个显示世界的模型往往只提取几个与结果高度相关,很重要的因素。观测数据会倾向于围绕有限模型的预测结果呈现正态分布。

但是如果知道先验概率呢?或者先验概率相同呢?只能依靠最大似然法吗?

  1. Bayesian Occams Razor 贝叶斯奥卡姆剃刀

如果平面上有N个点近似成一条直接,但绝不精确的在一条直线上。这时我们既可以用直接来拟合,也可以用二阶多项式甚至N-1多项式来拟合

奥卡姆剃刀:越是高阶的多项式越是繁杂和不常见 (先验概率)

而似然概率高速我们越是高阶的多项式,他的轨迹弯曲程度越大。

三、贝叶斯公式的应用

分词问题:南京市长江大桥

四、数据稀疏问题

五、机器翻译

相关推荐
一次旅行2 分钟前
今日AI新闻简报
人工智能
njsgcs4 分钟前
让ai执行多轮行动可以把任务变成限定长度的操作,让ai填空,比如我3d模型可以参数化全部给ai,ai返回修改后完全的模型
人工智能·3d
大龄程序员狗哥6 分钟前
第30篇:使用Flask部署你的第一个AI模型——打造简易Web API(项目实战)
前端·人工智能·flask
MobotStone6 分钟前
复杂中文不再乱码:GPT Image 2 解决 AI 图像生成最后一块短板
人工智能
数智化精益手记局9 分钟前
什么是仓库安灯管理系统?一文讲清仓库安灯管理系统的核心概念
大数据·网络·人工智能·安全·精益工程
sunneo11 分钟前
专栏A-AI原生产品设计-06-AI原生产品的未来展望(专栏A终篇)
人工智能·产品运营·产品经理·ai编程·ai-native
AI木马人13 分钟前
1.【AI系统架构设计】如何设计一个高效、安全的人性化AI工具系统?(从0到1完整方案)
人工智能·深度学习·神经网络·计算机视觉·自然语言处理
攻防_SRC21 分钟前
面向分组密码差分故障分析的属性推导与验证平台
人工智能·算法·机器学习
CV-杨帆23 分钟前
Gemma-4 模型部署全记录:从下载到对话(2B/4B)
人工智能
卷Java29 分钟前
MCP协议原理与实战:让大模型真正「能动」起来
人工智能·aigc