基于BP神经网络的手写体数字图像识别

基于 BP 神经网络的手写体数字图像识别

摘要

在信息化飞速发展的时代，光学字符识别是一个重要的信息录入与信息转化的手段，其中手写体数字的识别有着广泛地应用，如：邮政编码、统计报表、银行票据等等，因其广泛地应用范围，能带来巨大的经济与社会效益。

本文结合深度学习理论，利用BP神经网络对手写体数字数据集MNIST进行分析，作为机器学习课程的一次实践，熟悉了目前广泛使用的Matlab工具，深入理解了神经网络的训练过程，作为非计算机专业的学生，结合该课题掌握了用神经网络处理实际问题的方法，为今后将深度学习与自身领域相结合打下了基础。

1 引言

从计算机发明之初，人们就希望它能够帮助甚至代替人类完成重复性劳作。利用巨大的存储空间和超高的运算速度，计算机已经可以非常轻易地完成一些对于人类非常困难的工作，然而，一些人类通过直觉可以很快解决的问题，却很难通过计算机解决，这些问题包括自然语言处理、图像识别、语音识别等等，它们就是人工智能需要解决的问题。

计算机要想人类一样完成更多的智能工作，就需要掌握关于这个世界的海量知识，很多早期的人工智能系统只能成功应用于相对特定的环境，在这些特定环境下，计算机需要了解的知识很容易被严格完整地定义。

为了使计算机更多地掌握开放环境下的知识，研究人员进行了很多的尝试。其中影响力很大的一个领域就是知识图库（Ontology），WordNet是在开放环境中建立的一个较大且有影响力的知识图库，也有不少研究人员尝试将Wikipedia中的知识整理成知识图库，但是建立知识图库一方面需要花费大量的人力和物力，另一方面知识图库方式明确定义的知识有限，不是所有的知识都可以明确地定义成计算机可以理解的固定格式。很大一部分无法明确定义的知识，就是人类的经验，如何让计算机跟人类一样从历史的经验中获取新的知识，这就是机器学习需要解决的问题。

卡内基梅隆大学的Tom Michael Mitchell教授在1997年出版的书籍中将机器学习定义为"如果一个程序可以在任务T上，随着经验E的增加，效果P也可以随之增加，则称这个程序可以从经验中学习"。逻辑提取算法可以从训练数据中计算出每个特征和预测结果的相关度，在大部分情况下，在训练数据达到一定数量之前，越多的训练数据可以使逻辑回归算法的判断越精确，但是逻辑回归算法有可能无法从数据中学习到好的特征表达，这也是很多传统机器学习算法的共同问题。

对机器学习问题来说，特征提取不是一件简单的事情。在一些复杂问题上，要通过人工的方式设计有效的特征集合，需要很多的时间和精力，甚至需要整个领域数十年的研究投入。既然人工无法很好地抽取实体中的特征，那么是否有自动的方式呢？深度学习解决的核心问题就是自动地将简单的特征组合成更加复杂的特征，并使用这些特征解决问题。

因为深度学习的通用性，深度学习的研究者往往可以跨越多个研究方向，甚至同时活跃于数个研究方向。虽然深度学习受到了大脑工作原理的启发，但现代深度学习研究的发展并不拘泥于模拟人脑神经元和人脑的工作原理，各种广泛应用的机器学习框架也不是由神经网络启发而来的。

MATLAB是美国MathWorks公司出品的商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分。

MNIST是一个非常有名的手写体数字识别数据集，被广泛用作机器学习的入门样例，它包含了60000张图片作为训练数据，10000张图片作为测试数据，每一张图片代表了0~9中的一个数字，图片的大小为28x28，且数字会出现在图片的正中间。本文以该数据集为例，基于Matlab来分析BP神经网络的性能。

2 运行环境

本设计在Windows 10 下进行设计、主要利用 Matlab工具环境，进行模拟演示。

3 方法概述

3.1 神经元网络

神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

神经网络由多个神经元构成，下图就是单个神经元的图1所示：

图1 神经元模型

这个神经元是以

以及截距

为输入值的运算单元，其输出为

，其中函数

被称作"激活函数"。一般选用sigmoid函数作为激活函数

图2 sigmoid函数图像

神经网络就是将许多个单一的神经元联结在一起，这样，一个神经元的输出就可以是另一个神经元的输入。

例如，下图就是一个简单的神经网络：

图3 神经网络示意图

3.2 BP神经网络

BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。。BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方差为最小。

基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行，而调整权值和阈值则从输出到输入的方向进行。正向传播时，输入信号通过隐含层作用于输出节点，经过非线性变换，产生输出信号，若实际输出与期望输出不相符，则转入误差的反向传播过程。误差反传是将输出误差通过隐含层向输入层逐层反传，并将误差分摊给各层所有单元，以从各层获得的误差信号作为调整各单元权值的依据。通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值，使误差沿梯度方向下降，经过反复学习训练，确定与最小误差相对应的网络参数(权值和阈值)，训练即告停止。此时经过训练的神经网络即能对类似样本的输入信息，自行处理输出误差最小的经过非线形转换的信息。

4 数据结果分析

经过训练的神经网络对手写数字识别的精确度是85.88%，以下是数据结果：

图4.1 MSE走势曲线：

4.1 MSE走势曲线

图4.2 梯度和校验检查曲线：

图4.2 梯度和校验检查曲线

图4.3回归曲线：

图4.3回归曲线

图4.4训练结构图：

图4.4训练结构图

总结

本次设计在MATLAB上进行测试训练集，验证了BP神经网络的计算过程由正向计算过程和反向计算过程组成。正向传播过程，输入模式从输入层经隐单元层逐层处理，并转向输出层，每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出，则转入反向传播，将误差信号沿原来的连接通路返回，通过修改各神经元的权值，使得误差信号最小。

BP神经网络无论在网络理论还是在性能方面已比较成熟。其突出优点就是具有很强的非线性映射能力和柔性的网络结构。网络的中间层数、各层的神经元个数可根据具体情况任意设定，并且随着结构的差异其性能也有所不同。但是BP神经网络也存在以下的一些主要缺陷。学习速度慢，即使是一个简单的问题，一般也需要几百次甚至上千次的学习才能收敛；容易陷入局部极小值；网络层数、神经元个数的选择没有相应的理论指导；网络推广能力有限。

但是由于神经网络基础知识的理解还不够，对BP神经网络的实际运用也止于尝试，今后还需加强基础知识的学习，在此感谢老师引导我学习了机器学习的基础。