机器学习基础知识分享：深度学习

深度学习（Deep Learning）是近年来发展十分迅速的研究领域，并且在人工智能的很多子领域都取得了巨大的成功．从根源来讲，深度学习是机器学习的一个分支，是指一类问题以及解决这类问题的方法。

深度学习

为了学习一种好的表示，需要构建具有一定"深度"的模型，并通过学习算法来让模型自动学习出好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测模型的准确率．所谓"深度"是指原始数据进行非线性特征转换的次数．如果把一个表示学习系统看作一个有向图结构，深度也可以看作从输入节点到输出节点所经过的最长路径的长度。

这样我们就需要一种学习方法可以从数据中学习一个"深度模型"，这就是深度学习。深度学习是机器学习的一个子问题，其主要目的是从数据中自动学习到有效的特征表示。

图中给出了深度学习的数据处理流程．通过多层的特征转换，把原始数据变成更高层次、更抽象的表示．这些学习到的表示可以替代人工设计的特征，从而避免"特征工程"。

深度学习是将原始的数据特征通过多步的特征转换得到一种特征表示，并进一步输入到预测函数得到最终结果．和"浅层学习"不同，深度学习需要解决的关键问题是贡献度分配问题，即一个系统中不同的组件或其参数对最终系统输出结果的贡献或影响。

以下围棋为例，每当下完一盘棋，最后的结果要么赢要么输．我们会思考哪几步棋导致了最后的胜利，或者又是哪几步棋导致了最后的败局．如何判断每一步棋的贡献就是贡献度分配问题，这是一个非常困难的问题．从某种意义上讲，深度学习可以看作一种强化学习，每个内部组件并不能直接得到监督信息，需要通过整个模型的最终监督信息（奖励）得到，并且有一定的延时性．

目前，深度学习采用的模型主要是神经网络模型，神经网络是一种受人脑神经系统的工作方式启发而构造的数学模型．和目前计算机的结构不同，人脑神经系统是一个由生物神经元组成的高度复杂网络，是一个并行的非线性信息处理系统．人脑神经系统可以将声音、视觉等信号经过多层的编码，从最原始的低层特征不断加工、抽象，最终得到原始信号的语义表示．和人脑神经网络类似，人工神经网络是由人工神经元以及神经元之间的连接构成，其中有两类特殊的神经元：一类用来接收外部的信息，另一类用来输出信息．这样，神经网络可以看作信息从输入到输出的信息处理系统．如果我们把神经网络看作由一组参数控制的复杂函数，并用来处理一些模式识别任务（比如语音识别、人脸识别等）。

神经网络模型可以使用误差反向传播算法，从而可以比较好地解决贡献度分配问题．只要是超过一层的神经网络都会存在贡献度分配问题，因此可以将超过一层的神经网络都看作深度学习模型．随着深度学习的快速发展，模型深度也从早期的5 ∼ 10层增加到目前的数百层．随着模型深度的不断增加，其特征表示的能力也越来越强，从而使后续的预测更加容易．

神经网络和深度学习并不等价．深度学习可以采用神经网络模型，也可以采用其他模型（比如深度信念网络是一种概率图模型）．但是，由于神经网络模型可以比较容易地解决贡献度分配问题，因此神经网络模型成为深度学习中主要采用的模型．虽然深度学习一开始用来解决机器学习中的表示学习问题．但是由于其强大的能力，深度学习越来越多地用来解决一些通用人工智能问题，比如推理、决策等。