【论文复现】神经网络的公式推导与代码实现

📝个人主页🌹：Eternity._

🌹🌹期待您的关注 🌹🌹

❀ 神经网络的公式推导

文献参考
概述
引言
神经网络公式推导
数据集介绍
核心代码
运行结果
总结

文献参考

Learning representations by back-propagating errors

《Learning representations by back-propagating errors》这篇论文是神经网络和机器学习领域的开创性工作，由David E. Rumelhart, Geoffrey E. Hinton, 和 Ronald J. Williams于1986年发表。这篇论文的主要内容是介绍了反向传播算法（Backpropagation），这是一种用于训练多层神经网络的高效方法。

反向传播算法的核心思想是利用链式法则来计算神经网络中每个权重参数的梯度，即计算损失函数对每个权重的影响。这些梯度随后用于通过梯度下降法更新网络中的权重，目的是最小化网络的预测误差。

论文的主要贡献包括：

反向传播算法的描述：详细阐述了如何计算多层网络中每个权重的误差梯度。这个过程涉及到从输出层开始，逐层向后传播误差信号，直到达到输入层。

误差梯度的计算：论文解释了如何利用误差梯度来调整网络中的权重，以便减少网络输出和目标值之间的差异。

网络结构的讨论：论文讨论了不同类型的网络结构，包括前馈网络和反馈（递归）网络，并探讨了它们在不同任务中的应用。

学习表示的选择：论文讨论了学习表示的重要性，即网络如何通过学习输入数据的内在特征来提高性能。

实验结果：提供了使用反向传播算法训练网络的实验结果，展示了该算法在语音识别和手写字符识别等任务上的有效性。

反向传播算法的提出对深度学习的发展产生了深远的影响，它使得研究人员能够训练具有大量参数的复杂神经网络，这在之前是不可能的。这篇论文因此被认为是深度学习领域的里程碑之一。

概述

本文将细致阐述一个基础神经网络模型从输入到预测的全过程，包括其前向计算、误差回传以及参数调优等环节，并通过一个手写数字辨识的实例，分别运用纯Python编程和PyTorch框架来具体实践，旨在让读者深切体会到神经网络参数迭代优化的内在机制。

这些内容植根于神经网络与机器学习的核心理论------前向传播与反向传播，它们是当今绝大多数深度学习模型训练不可或缺的基石。通过这一系列的讲解与实践，我们将一同揭开深度学习模型训练的神秘面纱，助力大家更深入地把握这一领域的精髓。文章末尾，我们将提供完整的数据集、实现代码以及配套的PPT讲解材料。

引言

多层感知机（Multilayer Perceptron，简称MLP）是神经网络的一种。MLP是一种前馈神经网络，它包含一个或多个隐藏层，以及非线性激活函数，这使得MLP能够学习和模拟复杂的非线性关系。MLP是最基础也是最广泛研究的神经网络类型之一，本文将以一个MLP模型来展开。

MLP的结构通常如下：

输入层：接收外部输入数据。

隐藏层：一个或多个隐藏层，每层包含多个神经元。隐藏层负责从输入数据中提取特征并进行初步的非线性变换。

输出层：输出网络的预测结果，对于分类问题，输出层通常使用softmax激活函数进行多类分类。

MLP的训练过程通常包括以下几个步骤：

前向传播 ：输入数据通过网络，通过每个神经元的加权和和激活函数，最终得到输出。

计算损失：使用损失函数（如均方误差、交叉熵等）计算网络输出与真实标签之间的差异。

反向传播：根据损失函数的梯度，计算每一层的权重对损失的贡献，即梯度。

权重更新：使用梯度下降或其他优化算法（如Adam、RMSprop等）根据梯度更新网络的权重和偏置。

MLP在许多领域都有应用，包括图像识别、语音识别、自然语言处理、游戏AI等。随着深度学习的发展，MLP作为深度神经网络的基础，其结构和训练方法也在不断地被改进和优化。

实际上，几乎所有的深度学习模型中都会有MLP的身影，相当于深度学习模型的骨架，特别是在深度学习模型中最后一步，通常会接个MLP来使得输出的维度符合我们任务的需求，例如我们当前需要要对手写数字识别，那就是一个10分类问题，最后输出可以通过接一个MLP变成10维，每一维代表一个分类，从而顺利地使模型适配我们的任务。