深度学习读书笔记绪论

深度学习是什么？

机器学习的分支。

深度学习问题也是指从有限样例中总结出一般的规律，应用在新的未知数据上的方法。

机器学习的三个基本要素

模型

机器学习任务首要弄明白的，也就是一个机器学习任务所面对的输入空间和输出空间。

输入空间到输出空间，xy之间的关系可以用一个函数或者分布来描述的话，机器学习的目标就是找到模型来接近这个真实的函数或者分布。

假设空间

指的是所有可能的预测模型（或假设）的集合。

也就是输入空间和输出空间的中间，模型参数作为模型这个假想函数的变量，作为一种理想状态来拟合真实情况或者说真实的函数。

学习准则

如果训练集由N个独立的，同分布的样本组成。

好的模型应该让xy的值与真实情况尽可能一致。

模型使用期望风险来衡量。

期望风险则是由损失函数来量化xy和真实xy的差异，从而计算期望来定义的。

损失函数有很多种，各自有优缺点。

我们想着最后总要让这个损失函数计算的期望最低，也就是风险最小化准则。

但是期望风险无法计算，能够计算的是经验风险，也就是训练集上的损失函数量化的结果。

如果追求风险最小化，得到的是经验风险的最小化，而不是期望风险。

如果训练样本量比较小，这样容易过拟合。

过拟合：

表现为模型在训练集上错误率低，在未知数据上错误率高。

为了解决过拟合，引入正则化。

正则化：

修改损失函数，添加正则项。

优化算法

最后，确定了训练集，假设空间，学习准则之后，如何找到最优模型？

一个最优化问题。怎么找到最优参数，就是我们的优化算法要解决的事情。

参数，超参数

如果理解参数是函数的系数的话，我们的超参数就是用来定义模型结构或者优化策略的。超参数是用来得到最优参数的手段的参数。

比如聚类算法的类别个数，梯度下降法的步长等。

梯度下降

最常见的优化算法。可以理解为一个人不断下山，寻找最优（最低处）目标。有很多情况，如果优化目标函数是非凸的，就可能只能找到局部最优。为此设计了很多不同的梯度下降避免我们下山路上卡在小山沟，比如一次性走的步长不同之类的思路。

提前停止

防止过拟合。在训练集上训练，使用验证集测试模型是否最优。每次迭代，检测训练出的模型是否在验证集上最优（即准确率不再提升）。

如果在训练集上准确率不断提升，验证集却证明准确率没有提升就是过拟合了，所以我们要在验证集上准确率不再提升时提前停止。

总结

深度学习也是机器学习，在一个机器学习任务中，最开始很重要的就是输入空间和输出空间的确立。之间的真实映射我们使用假设来拟合它，假设的集合就是假设空间。之后使用一个函数来评价不同假设的效果。之后使用优化算法使目标函数最小。（或者说假设效果最好）

深度学习读书笔记 绪论