1.机器学习四要素
(1)数据:模型训练的基本
(2)模型:根据任务和数据类型选择合适的模型
(3)学习准则:计算损失
(4)优化算法:根据损失使用梯度下降or反向传播算法更新模型参数,从而优化模型
本质:通过数据训练所选择的模型,然后计算误差,再根据误差进行优化更新模型参数
2.过拟合和欠拟合的含义
过拟合:模型在训练集上学习的"过好",把噪声和无关特征都学习进去了,导致在测试集上的性能很差,泛化性差
欠拟合:模型在训练集和测试集上的性能都很差,主要因为模型的复杂度过低
3.经验风险和结构风险含义
经验风险:优化时追求训练集误差最小化,容易学习噪声导致过拟合
结构风险:考虑经验风险和模型复杂度,让模型复杂度作为经验风险的约束项,从而避免过拟合,提高模型的泛化能力
4.线性回归
机器学习中的基石模型:用一条直线或超平面去拟合所有的数据,通过最小化均值平方误差更新参数(梯度下降法),对异常值敏感,无法拟合非线性的数据集
5.极大似然估计
选择使当前数据出现概率最大的一组参数作为最优估计
步骤:先得到似然函数L,对L取对数然后对各个参数求偏导使偏导为0得到的参数结构即为参数最优估计