浅谈机器学习中的概率模型

浅谈机器学习中的概率模型

其实,当牵扯到概率的时候,一切问题都会变的及其复杂,比如我们监督学习任务中,对于一个分类任务,我们经常是在解决这样一个问题,比如对于一个n维的样本 X = [ x 1 , x 2 , . . . . . x n ] X=[x_1,x_2,.....x_n] X=[x1,x2,.....xn],我们想知道它的类别,这个时候我们可以采用概率模型,比如贝叶斯模型,但是,我们知道样本 X X X属于什么类别,可能跟他的所有特征有关,同时,他的所有特征可能又存在着及其复杂的联系,所以如果我们真的考虑特征之间各种复杂的关系,在计算P(y|X)这个概率时往往很困难,因为我们在求解这样的一个概率模型时,还需要考虑样本特征之间的及其复杂的联系。

所以,我们所采用的方法往往是假设样本特征之间是独立的,这样,去求解我们的问题。而且往往这样的做法有时候也可以有着不错的效果。

之所以会有这样的原因,是因为比如两个特征之间有着正相关或者负相关的关系,那么通过上面的方法,虽然没有考虑特征之间的关系,但是特征对于样本分类的影响还是会很大程度的考虑其中,所以,往往我们假设特征之间是独立的,去进行建模往往也可以取得很好的成绩,因为在建模的时候,特征之间的相关性对于样本分类的影响,会被考虑到。

还一种在概率论中的处理在马尔可夫模型中可以体现,其在考虑一个序列之间的关系时,只考虑相邻的。

在博主看来,我们去进行一些概率计算的简化时,需要考虑是否这种简化对于我们的任务有着较大的影响,我们的模型是否在建模的时候,即使由于概率计算的简化导致信息流失,但是模型可以很大程度,去弥补这种信息流失。

我举一个很好的例子:

比如一个人 w-体重 70kg h-身高180cm f-颜值打分90 s-形象打分95 现在根据这个四个值去探讨这个人是否被一个陌生人习惯的概率

我们知道 身高 颜值打分 形象打分 这三个数值明显是有关系的,身高会影响形象打分,颜值也会影响形象打分,那假设这四个特征独立,其实并不影响我们的建模,比如一个人最终被人喜欢的打分模型为(理想的打分模型):

P=0.1w+h+1.4f+z

因为有一个潜在的关系: s=0.4h+0.6f+z,z为其他影响变量

那其实这个模型仍然是线性的,对于这个一个线性的模型,我们的模型仍然是可以学习到的。

比如:

我们可能会学习到这样的模型:

P=0.1w+0.6h+0.8f+s

这个模型其实和理想模型是等价的,是不是,其实 s h f 之间的相关性并没有影响我们求解出最好的模型。

但是这是在相关性比较简单的情况下可行,如果较为复杂,我们的模型也需要足够灵活,能够在模型中考虑到特征之间的相关性。

相关推荐
余俊晖9 小时前
一套针对金融领域多模态问答的自适应多层级RAG框架-VeritasFi
人工智能·金融·rag
码农阿树10 小时前
视频解析转换耗时—OpenCV优化摸索路
人工智能·opencv·音视频
丁浩66610 小时前
Python机器学习---2.算法:逻辑回归
python·算法·机器学习
B站_计算机毕业设计之家11 小时前
计算机毕业设计:Python农业数据可视化分析系统 气象数据 农业生产 粮食数据 播种数据 爬虫 Django框架 天气数据 降水量(源码+文档)✅
大数据·爬虫·python·机器学习·信息可视化·课程设计·农业
伏小白白白11 小时前
【论文精度-2】求解车辆路径问题的神经组合优化算法:综合展望(Yubin Xiao,2025)
人工智能·算法·机器学习
应用市场11 小时前
OpenCV编程入门:从零开始的计算机视觉之旅
人工智能·opencv·计算机视觉
星域智链11 小时前
宠物智能用品:当毛孩子遇上 AI,是便利还是过度?
人工智能·科技·学习·宠物
taxunjishu11 小时前
DeviceNet 转 MODBUS TCP罗克韦尔 ControlLogix PLC 与上位机在汽车零部件涂装生产线漆膜厚度精准控制的通讯配置案例
人工智能·区块链·工业物联网·工业自动化·总线协议
说私域12 小时前
基于多模态AI技术的传统行业智能化升级路径研究——以开源AI大模型、AI智能名片与S2B2C商城小程序为例
人工智能·小程序·开源
囚生CY12 小时前
【速写】优化的深度与广度(Adam & Moun)
人工智能·python·算法