机器学习系列-2 线性回归&训练损失
学习内容来自:谷歌ai学习
https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hl=zh-cn
本文作为学习记录
1 线性回归:
举例:蝉(昆虫物种)在天气炎热的日子里会比在更冷的日子里鸣叫。数十年来,专业和业余科学家一直在编制每分钟的鸣叫声和温度方面的数据。
该图表显示了温度随着鸣叫声次数的增加而上升。 鸣叫声与温度之间的关系是线性关系吗?可以,您可以绘制一条直线来大致说明这种关系:
虽然这个直线并未穿过每一个点,但清晰地显示了鸣叫声和温度之间的关系。使用直线的等式,您可以写出这种关系,如下所示:
按照机器学习的惯例,您为模型算式的过程会略有不同:
y = mx + b
y' = b + w 1 w_{1} w1 x 1 x_{1} x1
其中b为 bias,w为weight
2 训练和损失
训练模型只需从有标签样本中学习(确定)所有权重和偏差的理想值。 在监督式学习中,机器学习算法通过检查许多示例并尝试找到将损失降至最低的模型来构建模型;此过程称为经验风险最小化。
损失是错误预测的惩罚。也就是说,损失是一个表示模型在单个样本上的预测质量的数字。如果模型的预测完全准确,则损失为零,否则损失会更大。训练模型的目的是从所有样本中找到一组平均损失"较小"的权重和偏差。例如,图 3 左侧显示的是高损失模型,右侧显示的是低损失模型。对于该图,请注意以下几点:
- 箭头表示损失。
- 蓝线表示预测。
图 3. 左侧模型中的损失较高;右侧模型中的损失较低。
2.1 通过创建数学函数(损失函数),以有意义的方式汇总各个损失。
平方损失函数:一种常用的损失函数
我们在此探讨的线性回归模型使用一种称为
|-------------------|
| 平方损失函数(也称为L2 损失 ) |
的损失函数。单个样本的平方损失如下:
= the square of the difference between the label and the prediction
=(标签和预测之间的差值的平方)
= (observation - prediction(x))2
= (y - y')2
均方误差 (MSE) 是指整个数据集中每个样本的平均平方损失。
如需计算 MSE,请先计算各个样本的所有平方损失之和,然后除以样本数量:
虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情况的最佳损失函数。
3.均方误差 (MSE) 的使用举例
均方误差 (MSE) 怎么计算和使用?
计算:
线上的 6 个示例发生的总损失为 0。四个不在线的样本并未远离离线,因此,即便使它们的平方变平方仍会产生较低的值: