分层神经网络（DNN）知多少？

分层神经网络作为深度学习的核心架构，已经彻底改变了我们处理复杂问题的方式。本文将带我们走进神经网络的基础知识，揭开GPT这些强大模型的神秘面纱。希望通过本文的介绍，我们不仅能够理解神经网络的基本构成，还能洞察到它们是如何通过一系列精心设计的层次结构来学习和模拟数据中的复杂模式。

神经网络由什么构成？

所有神经网络都由神经元网络组成，就像它们所模拟的大脑一样，但神经元是什么？

一个神经元由其输入、权重、偏差、激活函数和单一输出组成。它最初旨在复制生物神经元。

输入和权重之间存在一一对应的比例，当它们结合在一起时，会得到一系列加权输入，这些输入会被相加。在这个总和上加上一个偏差。

激活函数为什么重要？

具有单个输入的神经元是一个线性函数 ( y = ax + b )，因此只能形成简单的决策边界。即使增加神经网络中输入和神经元的数量，结果仍然是线性函数。这是因为多个线性函数结合在一起总是得到线性函数。

为了解决这个问题，并允许网络找到复杂的决策边界，我们需要使用激活函数，它们增加了非线性。

在下面的图表中，你可以看到这一点的例子，虚线代表具有单个加权输入的神经元，实线红线是三个的总和。看看在第一张图中红线仍然是一个线性函数。从数学上讲，这是因为 ( (4x + 2) + (-3x - 4) + (-2x + 1) ) 简化为 ( (-x - 1) )。

当将相同的神经元通过激活函数，在这个例子中是逻辑函数，非线性被添加到系统中。

以下是一些更知名的激活函数：

由于历史原因，这是最初的激活函数，20世纪50年代最初的感知机中使用了这个函数。这个函数将求和函数的输出转换为二进制值。

由于函数中阶梯的性质，权重和偏差的变化在输出越过阶梯边界之前不会有任何影响，一旦越过，它就会翻转二进制值。

步进函数

由于函数中步进的特性，权重和偏差的变化在输出越过步进边界之前没有影响，在这一点上它会翻转二进制值。

逻辑函数，也称Sigmoid函数

逻辑函数，即Sigmoid函数的一个变体，最初取代了阶梯函数。与阶梯函数一样，它将一个神经元的输出限制在0和1之间，但不会在零点附近出现同样的问题。这使得训练过程更加容易，因为除了在极端情况下，权重和偏差的变化始终会产生影响。

修正线性单元（ReLU）

修正线性单元（Rectified Linear Unit，简称ReLU）已经成为最受欢迎的激活函数，并且在大多数情况下，它是深度神经网络使用的默认激活函数。ReLU将输入的值与0进行比较，取两者中的较大值，这实际上会立即将任何负的输入值置为0。这种特性使得ReLU在处理正数时保持线性，而在处理负数时则输出0，从而加快了神经网络的训练速度，并有助于解决梯度消失问题。