(统计学习方法|李航)第一章统计学习方法概论七八九十节——生成模型与判别模型,分类问题,标注问题,回归问题

目录

一,生成模型与判别模型

二,分类问题

三,标注问题

四,回归问题


一,生成模型与判别模型

P(X,Y)是联合概率分布

只要是出现联合概率分布,就一定是生成模型

这里的P(Y|X)表示的是以X为条件Y的概率分布

隐马尔可夫模型时间上是一个时间序列的生成模型

判别方法就是直接去求概率

生成模型VS判别模型

  • 生成模型需要大量的数据将小狗和大象进行分类
  • 判别模型只需要利用差别去分类就可以了

比如说:

可以用特征鼻子的长度去判断是大象还是小狗------生成模型

需要收集耳朵,尾巴,脚等一系列特征去判断是大象还是小狗------判别模型

监督学习的应用:分类问题,标注问题,回归问题

二,分类问题

当输入变量和输出变量

  • 均为离散变量为分类问题
  • 均为变量序列为标注问题
  • 均为连续变量为回归问题

输出的类别(class)

评估分类器性能的指标一般是分类准确率

其定义是:对于给定的测试数据集,分类器正确分类的样本数和总样本数之比,也就是损失函数是0-1损失时候,测试数据集上的准确率。

true positive

false negative

前面的TF(代表的是预测正确与否)

后面的PN(代表的是预测数是正类数还是负类数)

画图更好记:
background:

根据特征值预测是否会被女孩子喜欢,

  • 结果中预测正确的就是predict(精确率)(预测正确里面有多少是正确的)
  • 在被女孩子喜欢的人中被预测出来的就是true(召回率)(所有正确的人里面召回了多少)

三,标注问题

标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。

标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。

标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。

模型可以是条件概率的形式也可以是决策函数的形式

  • 输入与输出均为22个序列
  • 名词标注为E,形容词标注为B,其他标注为O

四,回归问题

回归用于预测输入变量和输出变量之间的关系:

特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。

回归模型正是表示从输入变量到输出变量之间映射的函数。

回归问题的学习等价于函数拟合:

  • 选择一条函数曲线使得很好地拟合已知数据且很好地拟合已知数据且很好地预测未知数据。
  • 回归问题按照输入变量的个数,分为一元回归和多元回归;
  • 按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。

回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以用最小二乘法求解。

相关推荐
剁椒豆腐脑11 天前
阶段二JavaSE进阶阶段之设计模式&继承 2.2
java·设计模式·跳槽·学习方法·改行学it
ProcessOn官方账号12 天前
数据分析对比图表-雷达图全面指南
大数据·人工智能·程序人生·职场和发展·数据分析·学习方法·processon
是紫焅呢13 天前
I排序算法.go
开发语言·后端·算法·golang·排序算法·学习方法·visual studio code
是紫焅呢13 天前
E结构体基础.go
开发语言·后端·golang·学习方法·visual studio code
是紫焅呢15 天前
C函数基础.go
开发语言·后端·青少年编程·golang·学习方法·visual studio code
雁于飞15 天前
计算机网络与数据通信基础
笔记·计算机网络·考研·学习方法
是紫焅呢15 天前
D包和模块.go
开发语言·后端·golang·学习方法·visual studio code
是紫焅呢16 天前
O数据可视化基础.py
python·青少年编程·信息可视化·数据分析·学习方法·数据可视化·visual studio code
是紫焅呢16 天前
N数据分析pandas基础.py
python·青少年编程·数据挖掘·数据分析·pandas·学习方法·visual studio code
奇怪的小面包19 天前
【Tip】工具网站
学习方法