吴恩达深度学习复盘（1）神经网络与深度学习的发展

一、神经网络的起源与生物学动机

灵感来源

神经网络的最初动机源于对生物大脑的模仿。20 世纪 50 年代，科学家试图通过软件模拟神经元的工作机制（如树突接收信号、轴突传递信号），构建类似人类大脑的信息处理系统。
生物神经元的简化模型

人工神经网络采用数学模型简化生物神经元的行为：每个神经元接收输入（数字信号），通过加权求和与激活函数处理后输出。尽管这一模型远不及真实大脑复杂，但早期研究认为其可能复现智能行为。

20 世纪 50-80 年代：萌芽期
- 1958 年，感知机（Perceptron）的提出标志着神经网络的诞生，但受限于硬件和理论，未能解决复杂问题。
- 1980 年代，反向传播算法的提出推动了多层神经网络的发展，在手写数字识别等任务中取得突破（如邮政编码识别）。
1990 年代：低谷期
- 传统神经网络因计算成本高、数据量不足及理论局限，逐渐被支持向量机（SVM）等方法取代。
2005 年后：复兴与深度学习崛起
- 数据爆炸：互联网、移动设备普及带来海量数字化数据（如健康记录、在线行为）。
- 计算能力提升：GPU（图形处理器）的应用大幅加速模型训练，尤其适用于深层神经网络。
- 算法创新：深度神经网络（如 CNN、RNN）在语音识别（2010 年微软）、计算机视觉（2012 年 ImageNet 竞赛）等领域实现突破性进展。

"深度" 的含义
- 深度学习强调多层非线性特征提取。例如，CNN 通过卷积层、池化层逐步从像素中提取边缘、纹理到复杂物体特征。
与传统神经网络的区别
- 深度网络层数更多（如 ResNet 可达千层），参数量更大，依赖大规模数据训练。
- 名称变化："深度学习" 更突出层级结构，淡化生物学隐喻，强调工程实用性。

前几节课程没什么公式和概念。只是让学习者有个大概的印象，热下身。

人工神经网络（ANN）是模拟生物神经元结构的计算模型，通过多层节点和权重连接处理数据，早期受限于层数（通常 1-2 层隐含层）和数据规模，依赖人工设计特征。

深度学习则是 ANN 的子集，特指具有深层结构（数十至上百层）的神经网络，其核心突破在于通过层次化特征提取自动学习抽象特征，解决了传统 ANN 难以处理的复杂问题。

深度学习的兴起得益于三大驱动力：

①数据爆炸（互联网、移动设备带来的海量数字化数据）；

②硬件进步（GPU/TPU 加速训练）；

③算法优化（ReLU 激活函数、残差连接等技术缓解梯度消失）。

典型应用从早期语音识别（如 2010 年微软的深度学习突破）扩展到计算机视觉（2012 年 ImageNet 竞赛）、自然语言处理（GPT 系列模型）等领域。与 ANN 相比，深度学习更依赖大规模数据和计算资源，但通过深层网络实现了从图像、文本到语音的端到端学习，彻底改变了机器学习的应用范式。

神经网络从模仿生物大脑的尝试，演变为基于工程原理的强大工具，其复兴得益于数据、硬件与算法的协同进步。未来，随着神经科学和计算技术的突破，神经网络可能进一步逼近人类智能的边界，同时保持其作为通用人工智能基石的地位。